“目标检测“+“视觉理解“实现对输入图像的理解

2023-11-04

提出了GLIPv2，一种基于VL的理解模型，它服务于localization任务（例如，目标检测、实例分割）和视觉语言（VL）理解任务（例如，VQA、图像字幕）。

论文地址：https://arxiv.org/pdf/2206.05836.pdf

代码地址：https://github.com/microsoft/GLIP

预训练模型最小的2.5G，

01概述

GLIPv2优雅地将localization预训练和视觉语言预训练 (VLP) 与三个预训练任务相结合：phrase grounding作为检测任务的VL重构，区域-词对比学习作为新的区域-词级对比学习任务和掩码语言建模。这种统一不仅简化了之前的多阶段VLP程序，而且实现了定位和理解任务之间的互惠互利。实验结果表明，单个GLIPv2模型（所有模型权重共享）在各种定位和理解任务上实现了接近SoTA的性能。该模型还展示了：

在开放词汇目标检测任务上的强大的零样本和少样本自适应性能；
在 VL 理解任务上的出色grounding能力

02背景

最近，人们普遍关注构建通用视觉系统，也称为视觉基础模型，它可以同时解决各种视觉任务，例如图像分类、物体检测，以及视觉语言 (VL) 理解。特别感兴趣的是定位任务（例如，目标检测和分割）和VL理解任务（例如，VQA和图像字幕）之间的统一。

localization预训练有利于VL任务，“localization->VLP”两阶段预训练过程是VL社区。一个长期存在的挑战是localization和理解的统一，旨在这两种任务之间互惠互利，简化预训练程序并降低预训练成本。

然而，这两种任务似乎有很大的不同：定位任务仅是视觉任务，需要细粒度的输出（例如，边界框或像素掩码），而VL理解任务强调两种模式之间的融合，需要高级语义输出。例如，答案或标题）。

03新框架

Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.

A Unified VL Formulation and Architecture

GLIPv2统一公式的核心是分类匹配技巧，它将任何特定于任务的固定词汇分类问题重新表述为与任务无关的开放词汇视觉语言匹配问题。最好的例子是在CLIP中将图像分类重新表述为图像-文本匹配，这使模型能够直接从原始图像-文本数据中学习，并在开放词汇分类任务上实现强大的零样本结果。在GLIPv2 中，我们用视觉语言匹配点积层替换了传统单模态视觉模型中的每个语义分类线性层。

GLIPv2 Pre-training

GLIPv2使用三个预训练损失进行预训练：来自目标检测任务的视觉语言重构的phrase grounding损失Lground、来自新的区域单词级别对比学习任务的区域单词对比损失 Linter，以及标准掩码BERT中提出的语言建模损失Lmlm。

Transfer GLIPv2 to Localization and VL Tasks

我们引入了两种轻松将GLIPv2传输到各种下游任务的方法。此外，GLIPv2可以在本地化的同时执行传统的VL任务（例如VQA），有效地使我们认为的每项任务都成为“基础的VL理解”任务。

GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.

实验及可视化

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

“目标检测“+“视觉理解“实现对输入图像的理解的相关文章

【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
15天学会Python深度学习，我是如何办到的？

陆陆续续有同学向我们咨询 Python编程如何上手深度学习怎么学习如果有人能手把手一对一帮帮我就好了我们非常理解初学者的茫然和困惑大量视频书籍广告干扰了大家的判断学习Python和人工智能成为内行人不难为此我们推出了
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

void与void*

void与void void关键字的使用规则 1 如果函数没有返回值那么应声明为void类型 2 如果函数无参数那么应声明其参数为void 3 如果函数的参数可以是任意类型指针那么应声明其参数为void 4 void不能代表一个真实的
SISD、MIMD、SIMD、MISD计算机的体系结构的Flynn分类法

1 计算平台介绍 Flynn于1972年提出了计算平台的Flynn分类法主要根据指令流和数据流来分类共分为四种类型的计算平台如下图所示单指令流单数据流机器 SISD SISD机器是一种传统的串行计算机它的硬件不支持任何形式的并行计
Elasticsearch 开启https鉴权

Elasticsearch 早期的版本配置鉴权由于插件收费所以配置起来比较麻烦但是最近发现Elasticsearch的8 2版本中可以配置https及鉴权的操作所以记录一下给想要获取该知识的人分享一下第一步修改elastics
Android开发屏幕适配方案

由于Android系统的开放性任何用户开发者硬件厂商和运营商都可以对Android系统和硬件进行定制修改成他们自己所需要的样子使得随着Android设备的增多设备碎片化系统碎片化屏幕尺寸碎片化和屏幕碎片化的程度也在不断加深
竞赛知识点4【搜索】

文章目录复习栈和队列的概念树 1 1 深度优先搜索 dfs 1 1 1 概念 1 1 2 例题 1 输出n个数的全排列 2 输出n个数中选m个的组合 3 N皇后 8皇后的升级版 4 马踏棋盘 1 1 3 DFS大体框架 1 1 4 剪
Springboot-MDC+logback实现日志追踪

一 MDC介绍 MDC Mapped Diagnostic Contexts 映射诊断上下文该特征是logback提供的一种方便在多线程条件下的记录日志的功能某些应用程序采用多线程的方式来处理多个用户的请求在一个用户的使用过程中可能
Linux 安装cento

在虚拟机中安装CentOS7 http www centoscn com image text setup 2014 0723 3341 html CentOS 7 下 ifconfig command not found 解决办法 htt
localStorage.setItem()使用

localStorage setItem 使用
python自测100题

如果你在寻找python工作那你的面试可能会涉及Python相关的问题通过对网络资料的收集整理本文列出了100道python的面试题以及答案你可以根据需求阅读测试 python基础 Q1 什么是Python Python是一种面向对
Scala学习第一天（十三）：映射（可变/不可变Map；Map基本操作）

学习目标映射不可变Map 可变Map Map基本操作映射 Map可以称之为映射它是由键值对组成的集合在Scala中 Map也分为不可变Map 可变Map 不可变Map 语法 val var map Map 键 gt 值键 gt
Spring @ComponentScan 自定义扫描规则

Spring ComponentScan 组件中扫描规则使用场景 package org example cap2 config import org springframework context annotation Bean impo
Apache Beam简介及相关概念

文章目录一简介二基本概念 1 Pipelines 2 PCollection 3 Transforms 4 ParDo 5 Pipeline I O 6 Aggregation 7 User defined functions UD
H5 手机键盘兼容

文章目录键盘弹起页面表现 ios表现安卓表现监听软键盘弹起和收起 ios监听focus blur事件安卓还可见监听页面高度获取软键盘高度通过window visualViewport异步获取唤起软键盘始终让焦点元素滚动到可视区
SQL执行计划的十大参数

调用分析指令分析sql再进行对应的调优 explaion select 十个参数 id 编号 select type 查询类型 table 表 type 索引类型 possible keys 预测可能用到的索引 key 实际使用的索引 ke
css实现垂直居中6,CSS实现水平、垂直居中的6种方式

1 块级元素和行内元素 2 水平居中和垂直居中 3行内元素的水平居中 1 table 2 设置line height 3 text align center 4 margin 0 auto 5 绝对定位 6 flex弹性盒模型 7 calc
Http协议、get和post请求整理

1 什么是GET 和 POST GET 和 POST 其实都是 HTTP 的请求方法除了这 2 个请求方法之外 HTTP 还有 HEAD PUT DELETE TRACE CONNECT OPTIONS 这 6 个请求方法所以HTTP的
VMware16 Pro的安装及VMware配置CentOS7虚拟机（快照使用）

VMware16 Pro下载安装 1 进入官网下载 VMware官网 2 选择资源栏目点击产品下载 3 找到VMware Workstation Pro进行下载搜索框搜索 vmware workstation 16 pro for wi
mysql中双引号和单引号有什么区别

mysql中双引号和单引号有什么区别前2天看到有人问 mysql中双引号和单引号有什么区别希望大家可以关注下公众号支持一下鞠躬感谢我就直接po代码和截图了如下 select from employees where last n
vue3 + vite npm 组件库开发（一）

1 创建项目创建一个普通的vite vue3 项目即可我这里创建的是ts的项目 js也可根据自己的使用习惯 2 配置项目根目录下创建packages目录作为组件的开发包目录下index ts 作为整个组件库的出口文件导出组件 i
“目标检测“+“视觉理解“实现对输入图像的理解

提出了GLIPv2 一种基于VL的理解模型它服务于localization任务例如目标检测实例分割和视觉语言 VL 理解任务例如 VQA 图像字幕论文地址 https arxiv org pdf 2206 05836 pdf

“目标检测“+“视觉理解“实现对输入图像的理解

“目标检测“+“视觉理解“实现对输入图像的理解 的相关文章

随机推荐

热门标签

“目标检测“+“视觉理解“实现对输入图像的理解的相关文章