＜＜计算机视觉CVPR＞＞2022：Grounded Language-Image Pre-training

2023-11-15

在这里插入图片描述

收录情况： CVPR-2022
论文链接： https://arxiv.org/abs/2112.03857
代码链接： https://github.com/microsoft/GLIP

文章目录

简介
相关工作
方法
- Grounded Language Image Pre-training
实验
总结

简介

问题

Visual recognition 模型通常只能预测一组固定的预先确定的目标类别，这限制了在现实世界的可扩展能力，因为对于新的视觉概念类别和新的任务领域需要新的标注数据。

CLIP可以在大量图像文本对上有效地学习 image-level 的视觉表征，因为大规模匹配的图像文本对包含的视觉概念比任何预定义的概念都更广泛，预训练的CLIP模型语义丰富，可以在 zero-shot 下轻松地迁移到下游的图像分类和文本图像检索任务中。

为了获得对图像的细粒度理解(如目标检测、分割、人体姿态估计、场景理解、动作识别、视觉语言理解)，这些任务都非常需要 object-level 的视觉表征。

方案

这篇论文提出了 grounded language-image pretraining (GLIP) 模型，用于学习对象级、语言感知和语义丰富的视觉表征。GLIP将 object detection 和 phrase grounding 结合起来进行预训练。这有两个好处：1) GLIP可以同时从 detection 和 grounding 数据中训练学习，以改进两种任务，训练一个优秀的 grounding 模型；2) GLIP可以通过 self-training 的方式生成 grounding boxes来利用大量的图像文本对数据，使学习到的视觉表征具有丰富的语义。

实验上，作者对27M grounding data 进行预训练(包括3M人工注释和24M网络爬取的图像文本对)。训练学习到的视觉表征在各种目标级别的识别任务中都具有较强的zero/few shot迁移能力。1) 当直接在COCO和LVIS上评估(预训练期间没有训练COCO中的图像)时，GLIP分别达到 49.8 AP和 26.9 AP；2) 当在COCO上进行微调后，在val上达到 60.8 AP，在test-dev上达到 61.5 AP，超过了之前的SoTA模型。

主要贡献

1、Unifying detection and grounding by reformulating object detection as phrase grounding 改变了检测模型的输入：不仅输入图像，还输入 text prompt(包含检测任务的所有候选类别)。例如，COCO目标检测任务的 text prompt 是由80个COCO对象类别名组成的文本字符串，如图2(左)所示。通过将 object classification logits 替换为 word-region alignment 分数(例如视觉region和文本token的点积)，任何 object detection 模型都可以转换为 grounding 模型，如图2(右)所示。与仅在最后点积操作融合视觉和语言的CLIP不同，GLIP利用跨模态融合操作，具有了深度的跨模态融合的能力。

2、Scaling up visual concepts with massive image-text data 给定 grounding 模型(teacher)，可以自动生成大量图像-文本对数据的 grounding boxes 来扩充GLIP预训练数据，其中 noun phrases 由NLP解析器检测，图3为两个 boxes 的示例，teacher模型可以定位到困难的概念，如注射器、疫苗、美丽的加勒比海绿松石，甚至抽象的单词(视图)。在这种语义丰富的数据上训练可以生成语义丰富的student模型。

3、Transfer learning with GLIP: one model for all GLIP可以有效的迁移到各种任务中，而只需要很少甚至不需要额外的人工标注。此外，当特定于任务的标注数据可用时，也不必微调整个模型，只需微调特定于任务的 prompt embedding，同时冻结模型参数。

方法

Grounded Language Image Pre-training

在概念上，object detection 与 phrase grounding 具有很大的相似性，它们都寻求对对象进行本地化(即学习到并能检测这种对象的类别)，并将其与语义概念对齐。

a、Unified Formulation

Background: object detection 标准的检测模型将一张图像输入 visual encoder(CNN或Transformer)，提取 region/box 特征(图2底部)，每个 region/box 特征输入两个 prediction heads，即分类器(分类损失)和回归器(定位损失)。在两阶段检测器中，还有一个分离的RPN层用以区分前景、背景和改善anchors，因为RPN层没有用到目标类别的语义信息，我们将其损失合并到定位损失。

Object detection as phrase grounding 作者不是将每个 region/box 分类为c类，而是将检测任务重新定义为一个 grounding 任务，通过将每个 region 与文本 prompt(Prompt = “Detect: person, bicycle, car, … , toothbrush”) 中的c个phrases 进行 grounding/aligning(图2)。在 grounding 模型中，计算图像区域和prompt中的word之间的对齐分数:

其中 E n c I Enc_{I} EncI 为图像编码器， E n c L Enc_{L} EncL 为文本编码器，通过 S g r o u n d S_{ground} Sground 和上一小节提到的分类损失、定位损失，共三个损失端到端进行训练。到这里，会有一个问题，如图2中间所示，子词的数量 M M M 是要大于文本 prompt 的 phrases 数量 c c c 的，这是因为：1)有一些phrase包含多个word，例如‘traffic light’；2)一些单词会切分为多个子词，例如‘toothbrush’会切分为‘tooth#’和‘#brush’；3)一些token为added token或special token，不属于要识别的类别；4)在token词表中会添加一个[NoObj] token。因此，如果一个phrase是正匹配某个visual region，便将所有子词正匹配，而将所有的added token负匹配所有的visual region，这样将原始的分类损失 T ∈ { 0 , 1 } N × C T \in \{0,1\}^{N \times C} T∈{0,1}N×C扩展为 T ′ ∈ { 0 , 1 } N × M T^{'} \in \{0,1\}^{N \times M} T′∈{0,1}N×M。

Equivalence between detection and grounding 通过上述方法，将任意detection 模型转化为grounding模型，且理论上训练和推理都是等价的。由于语言编码器的自由形式的输入，预训练的phrase grounding模型可以直接应用于任何目标检测任务。

b、Language-Aware Deep Fusion

在公式3中，图像和文本由单独的编码器编码，只在最后融合以计算对齐分数，这种模型为晚期融合模型，而在视觉语言任务中，视觉和语言特征的深度融合是必要的。因此，作者在图像和语言编码器之间引入了深度融合，融合最后几个编码层中的图像和文本信息，如图2(中)所示。具体来说，当使用DyHead作为图像编码器，BERT作为文本编码器时，深度融合编码器为：

跨模态交互由跨模态多头注意力(X-MHA)(4)实现，然后是单模态融合，并在(5)和(6)中更新。在没有添加上下文向量(视觉模态 O t 2 i i O^i_{t2i} Ot2ii和语言模态 P i 2 t i P^i_{i2t} Pi2ti)的情况下，模型即为后期融合模型。在跨模态多头注意力(XMHA)(4)中，每个head通过关注另一个模态来计算一个模态的上下文向量：

深度融合(4)-(6)有两个好处：1)提高了 phrase grounding 性能；2)使学习到的视觉表征是语言感知的，因此模型的预测是以文本prompt为条件的。

c、Pre-training with Scalable Semantic-Rich Data

GLIP模型可以在检测和更重要的grounding数据上进行训练，作者表明，grounding数据可以提供丰富的语义，以促进本地化，可以以self-training的方式扩展。

Grounding 数据涵盖了更多的视觉概念词汇，因此作者扩展了词汇表，几乎涵盖了 grounded captions 中出现的任何概念，例如，Flickr30K包含44,518个惟一的phrase，而VG Caption包含110,689个惟一phrase。

实验

GLIP variants

经过预训练，GLIP可以轻松地应用于 grounding 和 detection 任务，在三个基准上显示了强大的域迁移性能：1)COCO，包含80个类别；2)LVIS包含1000个类别；3)Flickr30K用以 phrase grounding任务。作者训练了5个GLIP变种模型(表1)用以消融，其中GoldG是指0.8M人类标注的grounding数据，包括Flickr30K, VG Caption和GQA，并且已经从数据集中删除了COCO图像，Cap4M和Cap24M是指网络收集的图文对。

a、Zero-Shot and Supervised Transfer on COCO

表2可以看到，GLIP模型实现了强大的zero-shot和有监督(即Fine-Tune)性能。GLIP-T©达到46.7 AP，超过了Faster RCNN，GLIP-L达到49.8 AP，超过DyHead-T。在有监督下，GLIP-T比标准DyHead提高5.5 AP (55.2 vs 49.7)。通过swin-large作为主干，GLIP-L超越了COCO上当前的SoTA，在2017val上达到了60.8 AP，在test-dev上达到了61.5 AP。

b、Zero-Shot Transfer on LVIS

表3可以看到，GLIP在所有类别上都展示了强大的zero-shot性能。

c、Phrase Grounding on Flickr30K Entities

带有GoldG(第3行)的GLIP-T实现了与带有GoldG+的MDETR相似的性能，这是因为引入了Swin Transformer、DyHead模块和深度融合模块。扩展训练数据的(GLIP-L)可以达到87.1 Recall@1，比之前的SoTA高出2.8点。

总结

GLIP将 object detection 和 phrase grounding 任务统一起来，以学习对象级的、语言感知的和语义丰富的视觉表征。在预训练之后，GLIP在完善的基准测试和13个下游任务的zero-shot和fine-tune设置方面显示了有竞争力的结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MultiModal Pretraing

计算机视觉

自然语言处理

深度学习

人工智能

＜＜计算机视觉CVPR＞＞2022：Grounded Language-Image Pre-training 的相关文章

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
socket网络编程几大模型？看看CHAT是如何回复的？

CHAT回复网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求不需
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
15天学会Python深度学习，我是如何办到的？

陆陆续续有同学向我们咨询 Python编程如何上手深度学习怎么学习如果有人能手把手一对一帮帮我就好了我们非常理解初学者的茫然和困惑大量视频书籍广告干扰了大家的判断学习Python和人工智能成为内行人不难为此我们推出了
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

spring之AOP总结

AOP Aspect Oriented Programming 面向切面编程指在程序运行期间将某段代码动态的切入到指定方法的指定位置进行运行的这种编程方法面向切面编程专业术语连接点即指定位置 spring允许你使用通知的地方每
哈希表以及用js封装一个哈希表

最近在学数据结构和算法正好将学习的东西记录下来我是跟着一个b站博主学习的是使用js来进行讲解的待会也会在文章后面附上视频链接地址大家想学习的可以去看看本文主要讲解哈希表其他数据结构后续学完也会持续更新目录一什么是哈希表
8 种最坑的SQL错误用法

点击上方芋道源码选择设为星标管她前浪还是后浪能浪的浪才是好浪每天 10 33 更新文章每天掉亿点点头发源码精品专栏原创 Java 2021 超神之路很肝中文详细注释的开源项目 RPC 框架 Dubbo 源码解析网
解决Windows10提示管理员已阻止你运行此应用的问题

近日发现Windows10更新后想查看设备管理器在此电脑上右键点击管理后提示用户账户控制管理员已阻止你运行此应用无法打开管理后来又发现很多重要的地方都出现这个提示于是在网上找如何解决这个问题的办法大部分都是修改注册表或者打
React的函数编程

函数式编程的好处是什么函数式编程是一种编程模式在这种编程模式种最常用函数和表达式函数式编程把函数作为一等公民强调从函数的角度考虑问题函数式编程倾向用一系列嵌套的函数来解决问题函数式编程让我们的代码更清晰每个功能都是一个函数函
「分享」最全AI合集全是好玩意！

哈喽大家好木易巷这次给大家带来了最全的AI合集每一个都功能强大总有一个是你需要的话不多说直接上 1 学英语 Replika 2 Al生成乐曲 AmperMusic IBM Watson Music 3 Al换脸 Deepfake
一款好用的基于vue的录屏插件recordrtc，拿走不谢

第一步下载安装包 npm i recordrtc 第二步复制代码即可使用
c语言--unsigned修饰符

在C语言中 unsigned是一种无符号整数修饰符它可以与多个整数类型如int short long等结合使用表示该整数类型只包含非负数值 unsigned修饰的整数类型不保存正负号位因此可以用来表示更大的正整数范围例如 uns
静态代码扫描（四）——Java资源关闭研究

最近一直在研究java资源关闭的检查规则发现市面上开源的工具针对资源关闭的检测都存在一定不足同时也无法满足我们业务的需求所以火线团队针对资源关闭进行了深度的研究取得了一些不错的进展但是过程的艰辛也远超了我们的预料现在就跟大家聊聊
爬虫中连接数据库，两种获取网页内容的方式，BeautifulSoup，正则表达式的使用，爬json格式文件

一连接数据库 1 连接MySQL import pymysql conn pymysql connect host localhost port 3306 user root passwd db charset utf8 cur conn
Multi-Camera Support

Android 9 introduces API support for multi camera devices via a new logical camera device composed of two or more physic
豪斯多夫距离-- Hausdorff distance of convex polygons

蒙特利尔的麦吉尔大学的计算几何课程资料原文链接 http cgm cs mcgill ca godfried teaching cg projects 98 normand main html 1 Introduction When ta
总结图（有向图、无向图、权、度、存储结构、邻接矩阵、领接表概念）

20171124 图的概念图的基本性质无向图有向图连通图图的权有些图的边或者狐剧有与他相关的数字这种与图的边或者狐相关的数叫做权图的度无向图顶点的边数叫度有向图顶点的边数叫出度和入度图的数据存储结构邻接矩阵带权邻接
qt 获取当前程序运行路径_linux设置软件运行时动态库查找路径

用习惯了windows 在linux下写代码涉及到动态库总是要复制到 usr lib里觉得不方便特别是调试的时候不想复制过特地找了一下怎么设置动态库查找路径这里记录一下程序是通过环境变量LD LIBRARY PATH的路径来
Exception in thread “main“ ExitCodeException exitCode=-1073741515

Exception in thread main ExitCodeException exitCode 1073741515 今天在本地使用Mapreduce执行单词计数时出现了问题在网上进行方法查找方法首先我先尝试将hadoop安装
linux信号介绍

信号介绍信号的概念信号是信息的载体 Linux UNIX 环境下古老经典的通信方式现下依然是主要的通信手段信号在我们的生活中随处可见例如古代战争中摔杯为号现代战争中的信号弹体育比赛中使用的信号枪信号的特点简单不能携
【扩展KMP】POJ_3450｜ HDU_2328 Corporate Identity

原题直通车 POJ 3450 Corporate Identity HDU 2328 Corporate Identity 题意概述找出N个串中最长公共子串分析一可以直接枚举其中一个串的所有字串跟所有串进行匹配找到结果二用其中
IDEA(Ultimate版本)安装全程照着箭头指示

只需动手跟着箭头指示安装即可安装包的链接 https pan baidu com s 12hSGc7PDpbcaV UxCL5NSQ 提取码 zx1x 下载后解压自己想要的位置安装完后可删除以上就是安装全过程如有问题可在评论区留言
2023-05-19 题目

1 java的三大特性亦或者四大特性继承继承是从已有类得到继承信息创建新类的过程提供继承信息的类被称为父类超类基类得到继承信息的类被称为子类派生类继承让变化中的软件系统有了一定的延续性同时继承也是封装程序中可变因素的
＜＜计算机视觉CVPR＞＞2022：Grounded Language-Image Pre-training

收录情况 CVPR 2022 论文链接 https arxiv org abs 2112 03857 代码链接 https github com microsoft GLIP 文章目录简介问题方案主要贡献相关工作方法 Groun

＜＜计算机视觉CVPR＞＞2022：Grounded Language-Image Pre-training

文章目录

简介

问题

方案

主要贡献

相关工作

方法

Grounded Language Image Pre-training

a、Unified Formulation

b、Language-Aware Deep Fusion

c、Pre-training with Scalable Semantic-Rich Data

实验

GLIP variants

a、Zero-Shot and Supervised Transfer on COCO

b、Zero-Shot Transfer on LVIS

c、Phrase Grounding on Flickr30K Entities

总结

＜＜计算机视觉CVPR＞＞2022：Grounded Language-Image Pre-training 的相关文章

随机推荐

热门标签