Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding, 2022 CVPR

2023-11-02

**本文内容仅代表个人理解,如有错误,欢迎指正**

1. Problem & Background Information

1.1 Problem

- 目前,人们基本上都采用基于深度学习的方法来解决Visual grounding任务。不论是全监督学习还是弱监督学习,都十分依赖人为标注的数据集,而人工标注不仅昂贵,还十分费时。因此,本篇论文的目标是减少模型对于人工标注数据的依赖。

1.2 Background Information

- 简单阐述Visual grounding任务背景下的全监督学习与弱监督学习。

- 全监督学习如图一(a)所示,给定Image、Query以及Image中相对应的Bounding box进行训练。

- 弱监督学习如图一(b)所示,仅给定Image、Query进行学习,没有给出图像中相对应的位置。

图一

2. Point

- 个人觉得本篇论文最大的亮点就是其通过无监督的方法构建有监督的学习,但无监督的方法所提供的信息/标签到底可不可靠,另说。主要思想如图二所示,在训练的时候,给定一张没有label的Image,通过Pre-trained detector得到object proposals;通过Pseudo-Query Generation Module得到Object Proposals的Pseudo queries。此时,等同于构建了一个有监督的数据集,即{Object proposal, Pseudo query}。利用这个构建得来的数据集训练Visual Language Model。然后在测试的时候,直接用Visual Language Model进行预测。

3. Main Components 

图二

3.1 Overview

- Pseudo-Q主要由三部分组成 1) Pseudo-Query Generation Module 2) Query prompt module 3) Visual-Language model

- Bascially, 给定一张没有标签的Image,通过预训练的Detector可以得到proposals(类似于两阶段的Visual grounding方法,通过Pre-trained Faster RCNN得到Proposals)。然后将proposals输入至Pseudo-Query Generation Module中,为每一个proposal自动生成Nouns, attributes and relationships.,并通过这些元素生成伪query。再将伪query输入Query Prompt Module中,得到最终的Query。相当于,通过这种无监督的方式,构造数据集,进行有监督的训练。

3.2 Pseudo-Query Generation

- 为了更准确地框选出Refered object,在生成Pseudo-Query时重点关注三个元素 1. Nouns(主体) 2. Attributes 3. Relationships

1. 采用off-the-shelf detector得到object proposals,并依据detection confidence选出top-N的objects(能够得到主体)。

2. 采用off-the-shelf attribute classifier得到attribute信息,受限于模型,基本上只取一个属性。

3. 在Relationships方面,基本上考虑spatial relationship,主要分为三个方向 1. Horizontal(left, middle and right) 2. Vertical(top and bottom) 3. depth(front and behind)。

*note: "Each previously generated object proposal is represented by a set of coordinates which naturally embrace spatial information." 换句话说,我们可以利用这边的coordinate信息,得到object的spatial relationship。

- 针对Horizontal和Vertical spatial relationship,基本上模型只需在两个维度上对比object的中心坐标即可。

- 针对depth spatial information,主要利用成像近大远小的现象,通过计算不同object所占image的比例得到前后关系。

得到Nons、Attributes以及Relationships后,根据Pseudo Query Template生成Pseudo Query。

3.3 Query Prompt Module

* Prompt是研究者们为下游任务设计出来的一种输入形式或模板,其能够让预训练模型“回忆”起自己在预训练时“学习”到的东西,从而得到更好的表现。

- 在本论文中的Prompt为 1. “find the region that corresponds to the description {pseudo-query}” 2. "which region does the test {pseudo-query} describe?"

3.4 Visual-Language Model

- Visual-Language model主要由三部分组成(如图三所示) 1. Visual encoder 2. Language encoder 3. Cross-modality fusion module.

1. Visual encoder: 由CNN backbone(ResNet-50 pre-trained on ImageNet)和Transformer-based Network(The encoder part of DETR network)组成。

2. Language encoder: 由Token embedding layer和BERT(with 12 transformer layers)组成。

3. Cross-modality fusion module: 主要提出Multi-level cross-modality attention(ML-CMA),通过计算不同层级下图像特征和文本特征的cross-modality self-attention,并利用这个attention更新图像特征和文本特征,然后将图像特征和文本特征进行拼接。(简单来说就是,在每一个层级当中,都去计算图像特征和文本特征的attention,并对图像特征和文本特征进行更新,最后将图像特征和文本特征拼接在一起,记作融合特征A)因此,就有不同层级的融合特征A。此时,通过全连接网络将不同层级的融合特征A映射到同一个维度,并把不同层级的融合特征A进行拼接,得到最终的融合特征B,最后将B输入Regression Head中进行预测。

 图三

4. Experimental Results

- 从Table 1中可以看出,同样是无监督的学习,在没有任何标注数据的情况下,本文的实验表现相较于21年无监督的模型有了巨大的提升,本文的实验表现甚至高于弱监督的部分模型。 

 图四

- 图四主要是为了证明本文的方法最大限度能够减少多少的人工标注(说起来有点不像人话了)。可以从图四中看到,在Pseudo-samples的比例占训练比例30%情况下,并不损伤模型表现,因此得出结论:本文所提出的方法可以在不影响模型效果的情况下减少大约30%的人工标注。

- 本文还针对Pseudo-Query Generation Module做了一些对比实验:

- 个人认为Object Number以及Pseudo-query Number的增加类似于扩大了训练数据集的数量,在一定程度上能够增强模型表现,但并不是每一个生成的object-query都是具有correct supervision signal,所以数量过多的话也有可能降低模型表现。

- 以下是正常的消融实验,不过多解释。可以从Table 3中看出Relationship(即位置关系)在Visual grounding任务中的重要性。 

 - 以及一些可视化的实验结果图:

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding, 2022 CVPR 的相关文章

随机推荐

  • Java-Final关键字

    Java Final关键字 1 概念 final 最终的 final可以修饰的结构 类 最终的类 此类不能被其他类继承 比如String类 StringBuffer类 方法 最终的方法 此方法不能被重写 比如Object 类中的getCla
  • JVM小册(1)------jstat和Parallel GC日志

    JVM小册 1 jstat和Parallel GC日志 一 背景 在生产环境中 有时候会遇到OOM的情况 抛开Arthas 等比较成熟的工具以外 我们可以使用java 提供的jatat和jps jmap等工具来帮助我们排查问题和定位原因 本
  • Kubernetes笔记(6) - Service和Ingress

    Service资源概述 创建Service资源 向Service对象请求服务 Service会话粘性 服务发现 服务暴露 Ingress和Ingress Controller Ingress资源 Ingress控制器 Service资源概述
  • FID(Fusion-in-Decoder models)源码笔记

    源码 源码 https github com facebookresearch FiD 目录 源码 数据集 数据格式 预训练模型 训练 测试 src slurm py 资源调度管理 util py 配置管理 evaluation py 查找
  • 夜光带你走进 传奇语言C#(24)

    夜光序言 一只站在树上的鸟儿 从来不会害怕树枝断裂 因为它相信的不是树枝 而是它自己的翅膀 有时候 经济不独立 你发的一切飚都是浮云 正文 任务18 班级编码表维护
  • oracle 16058,Oracle 11g Data Guard ORA-16058 错误处理

    采用RMAN 备份恢复搭建Oracle 11g的Data Guard 恢复结束之后 DG 同步一直异常 主库提示如下信息 https www cndba cn Dave article 4330 SQL gt select DEST NAM
  • java设计模式之观察者模式(含完整例子和UML类图)

    java设计模式之观察者模式 1 观察者模式 1 1定义 观察者 Observer 模式的定义 指多个对象间存在一对多的依赖关系 当一个对象的状态发生改变时 所有依赖于它的对象都得到通知并被自动更新 这种模式有时又称作发布 订阅模式 模型
  • 高性能服务器架构思路(一)——缓冲策略

    本文首发腾云阁 高性能服务器架构思路 一 缓冲策略 作者介绍 韩伟 1999年大学实习期加入初创期的网易 成为第30号员工 8年间从程序员开始 历任项目经理 产品总监 2007年后创业4年 开发过视频直播社区 及多款页游产品 2011年后就
  • 孕妇有什么副业做?孕妇在家有哪些兼职可以做?

    孕妇有什么副业做 孕妇在家有哪些兼职可以做 孕妇在家选择兼职工作时 有一点一定要遵循 不能从事极端的体力工作 因为体力工作容易让孕妇出现并发症 所以孕妇一定要选择一些没有太大压力的兼职工作 有很多兼职工作时间很自由 所以特别适合怀孕的女性做
  • LAMP部署

    文章目录 LAMP简介 web服务器 web服务器的资源分为两种 静态资源和动态资源 工作流程 http响应报文 httpd与php结合的方式 httpd与php结合的方式有以下三种 lamp平台构建 环境说明
  • 不会下载软件?这5个网站别错过,纯净、安全、无捆绑

    虽然下载网站有很多 但是一不小心就会下载到各种捆绑安装包 这里就给大家分享5个比较靠谱的软件下载网站 纯净 安全 无捆绑 可以放心使用 1 Microsoft Store 一个微软旗下的电脑软件商城 它里面有很多类型的软件可以下载 首页也有
  • c/c++中,预编译指令用法汇总

    切换模式 写文章 登录 注册
  • java多线程实战( 多个线程 修改同一个变量)

    java多线程实战 多个线程 修改同一个变量 synchronized 同步 介绍 java多线程实战 需求 创建两个线程 分别输出 a b 要求输出总和为30个 线程介绍 一 定义线程 1 扩展java lang Thread类 此类中有
  • Makefile原理及使用

    makefile make 是一个命令工具 是一个解释 makefile 中指令的命令工具 make 工具在构造项目的时候需要加载一个叫做 makefile 的文件 makefile 关系到了整个工程的编译规则 文章目录 makefile
  • 前端Vue项目——课程详情页面实现

    一 详情页面路由跳转 应用 Vue Router 编程式导航通过 this router push 来实现路由跳转 1 绑定查看详情事件 修改 src components Course Course vue 文件 给课程 div 绑定查看
  • matlab基础语法1_变量类型_顺序循环

    1 变量 和c不同 matlab对于变量可以直接用 不用提前声明 和c一样 大小写敏感 和c一样 matlab的关键字不做变量名 使用iskeyword查看 和c一样 matlab的变量不能以数字开头 综上 和c编程类似 一定原因也是mat
  • OCV/ACOV的介绍

    OCV on chip variation 差异 芯片制造过程中 MOS见差异必然存在 Library中的cell delay是在某个固定的PVT下仿真得出的 而实际上芯片内部由于工艺偏差 电压降 温度变化 cell的delay并不是一个固
  • 进度条加载

    import datetime import time def show process counts 500 wait time 1 25 进度条总步数 steps counts 打印的 length 80 for step in ran
  • socket编程-TCP各函数及其用法

    socket编程 TCP socket主要类型 流套接字 SOCK STREAM 流套接字用于提供面向连接 可靠的数据传输服务 该服务将保证数据能够实现无差错 无重复送 并按顺序接收 流套接字之所以能够实现可靠的数据服务 原因在于其使用了传
  • Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding, 2022 CVPR

    本文内容仅代表个人理解 如有错误 欢迎指正 1 Problem Background Information 1 1 Problem 目前 人们基本上都采用基于深度学习的方法来解决Visual grounding任务 不论是全监督学习还是弱