Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes(2021CVPR)----论文阅读笔记

2023-10-26

Abstract

在这里插入图片描述

简单来说: 实现了无需人工提供边界框标注OVD检测框架
如何实现:预先训练的 vision-language 模型的 localization 能力和 生成可直接用于训练目标检测的伪边界框标签来实现这一点。
**效果:**在COCO新类别上,作者的训练没有配备手动bounding box标签 比使用了 人工标注bounding box 框进行训练的(SOTA)高出3%的AP,当使用bounding box标签作为我们的基线时,作者的方法超过SOTA 8%的AP。
在这里插入图片描述

1. Introduction

在这里插入图片描述
提及到了ZSD,OVD的检测方法,它们都需要基类有bounding box label。

在这里插入图片描述
作者的想法借力于 来自大规模弱对齐图像-标题对进行预训练的网络 得到的 视觉语言模型 Vision-language models
它们在图像分类中表现出惊人的零镜头性能,在文本-视觉区域对齐任务(如引用表达式)中也表现出良好的结果,这意味着它们具有很强的定位能力

如何实现? pseudo bounding box label如何生成的?

在这里插入图片描述
在这里插入图片描述
大规模图像标题数据集中自动获取不同对象集合的伪框标注
具体地说,给定一个预先训练的视觉语言模型一个图像-标题对,我们在图像中计算一个** activation map (Grad-
CAM [24])激活映射**,它对应于caption中提到的感兴趣的对象。然后,我们将activation map(激活图)转换为对应对象类别的pseudo bounding box label。然后,我们的开放词汇表检测器由这些伪框标签直接监督,这样就可以在没有人为提供边界框注释的情况下训练对象检测器。

2. Related Work

3. Related Work

两部分: Pseudo Box Labels 如何产生? 如何用于OVD?
Generating Pseudo Box Labels
Open vocabulary Object Detection with Pseudo Labels

3.1. Generating Pseudo Box Labels

在这里插入图片描述
图2就是作者 pseudo bouding box label 生成过程的说明。系统的输入是图像-标题对。我们使用图像和文本编码器来提取图像及其相应标题的视觉和文本嵌入(其实就是特征向量)。然后通过图像与文本的交叉注意交互获得多模态特征。我们在预定义的对象词汇表中保留感兴趣的对象。对于嵌入caption中的每个感兴趣的对象(例如上图中的球拍),我们使用Grad-CAM将其激活图activation map 可视化到图像中。这张图显示了图像区域对目标词最终表示的贡献。最后, 通过选择与activation map 重叠最大的 object proposal 作为 pseudo bouding box label.

3.2. Open vocabulary Object Detection with Pseudo Labels

在这里插入图片描述
图像由特征提取器处理,然后是RPN。然后通过对区域建议进行RoI pooling/RoI align,提取出基于区域的特征,得到相应的visual embeeding 。在训练过程中,鼓励同一对象的视觉和文本embedding 的相似性.

Experiment

在这里插入图片描述
图4。在COCO上生成的伪边界框注释的可视化。红框表示成功案例,黄框表示失败案例。我们的伪标签生成器可以生成COCO的类别列表中没有包含的对象(拖鞋、罐子和馅饼)。当存在多个相同类别的对象实例时,生成器可能会失败(例如,第三列中的雨伞)如果不显示在标题中(例如,最后一列中的汽车),则无法捕获对象

在这里插入图片描述
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes(2021CVPR)----论文阅读笔记 的相关文章

  • 深度学习学习率的调整

    20220626 0 引言 最近在做实验的时候 由于结果一直都不怎么好 我就在想是不是过拟合了 那就算不是过拟合 是不是根本没有学习到数据集中的信息呢 想到了这些事情 我就直接把测试集的效果跟随着训练过程直接打印出来了 当然 实际过程中 肯
  • 1.Linux命令-删除

    Linux的删除命令 在Linux下删除文件 我们使用rm命令 还有搭配相应的参数 具体的选择我们看下面看说明 rm 参数 文件名 参数说明 1 f force 忽略不存在的文件 强制删除 无任何提示 2 i interactive 进行交
  • windows下qtmqtt模块的编译安装-Qt5.12.12

    windows下qtmqtt模块的编译安装 Qt5 12 12 代码获取及编译环境 代码获取 方式1 方式2 配置编译环境 编译安装 代码获取及编译环境 代码获取 方式1 直接git拉取至本地 git clone https github
  • PyTorch显存机制简要分析

    显存开销 显存占用约为element个数的4倍 注意不会将空闲的显存释放 模型参数 模型参数的梯度 优化器状态 跟踪每个权重参数 比如记录动量 中间结果 前向传播时计算的中间结果 显存分析方法 No Nvidia smi PyTorch中即

随机推荐

  • 《JavaScript设计模式》初次笔记——wsdchong

    JavaScript设计模式 初次笔记 前言 设计模式一直久仰大名 但是没有去花时间去了解 于是今天特意花时间去看 JavaScript设计模式 2013年6月出版 和w3cschool上的设计模式 然后做了一些笔记 以 JavaScrip
  • 随机游走序列平稳吗_【问答】时间序列系列(一)—— 平稳序列

    编写 果壳屋 什么是平稳 非平稳序列 如果时间的变化不会导致分布的变化 我们谈论的是分布统计属性 如均值 方差和协方差 我们就把时间序列称为为平稳的 stationary 这并不意味着序列不会随时间而变化 只是它的变化方式本身不会随时间而变
  • mybatis实现继承映射

    ORM 框架的优势在于能让我们利用面向对象的思维去操作数据库 hibernate 作为重量级的 ORM 框架对面向对象的支持很强大 作为半自动化的 mybatis 对面向对象的支持也是很完备的 这篇文章就来讨论一下如何利用 mybatis
  • Vue的路由

    一 Vue的路由 1 路由 路由 从源页面到目的页面的决策过程 2 前端路由 前端路由 在前端页面中维护的路由规则 1 hash 在地址中以 分隔页面 2 history 在地址中以 分隔页面 3 VueRouter路由 VueRouter
  • 今天来聊一聊在人工智能技术发展中起到重要作用的蒸馏算法

    人工智能技术的迅猛发展已经带来了诸多突破和应用 但同时也面临着一些挑战 例如深层网络的复杂性和高计算成本 为了应对这些问题 蒸馏算法作为一种有效的知识传递方法被提出并广泛应用于人工智能领域 本文将深入探讨蒸馏算法的原理 关键技术以及其在人工
  • python的setup.py文件及其常用命令

    http www 2cto com kf 201209 153517 html 编写setup py文件 获取帮助 python setup py help commands python Standard commands build b
  • 【虾说区块链】什么是hash算法?什么是好的hash算法?

    欢迎收听 虾说区块链 现在区块链这个概念在互联网上相当火热 这里简单做一个普及 不涉及项目推广投资 单纯地对区块链相关基础知识概念作一个说明讲解 本人区块链技术爱好者 结合相关区块链资料总结整理了 虾说区块链 也是自己一个学习笔记 涉及相关
  • wireshark提取RTSP over TCP中的视频流

    wireshark提取RTSP over TCP中的视频流 文章目录 wireshark提取RTSP over TCP中的视频流 1 背景 2 提取前准备 3 H264提取步骤 4 后记 1 背景 前面文章中介绍了rtp中提取H264或者H
  • Flutter 之 Mac 环境搭建

    目标 在 Mac 下 搭建 Flutter 运行的 iOS 开发环境 基础环境 要安装并运行 Flutter 您的开发环境必须满足以下最低要求 操作系统 macOS 64 bit 磁盘空间 700 MB 不包括 Xcode 或 Androi
  • Mysql主从复制搭建

    找到cnf文件 root 7103a3767cad which mysqld usr sbin mysqld ns t 7103a3767cad usr sbin mysqld verbose help grep A 1 Default o
  • 杨辉三角的重要结论

    第n行的m个数可表示为 C n 1 m 1 即为从n 1个不同元素中取m 1个元素的组合数 第n行的第m个数和第n m 1个数相等 为组合数性质之一 每个数字等于上一行的左右两个数字之和 可用此性质写出整个杨辉三角 即第n 1行的第i个数等
  • QT信号槽的使用

    QT4 QMetaQbject Connection QObject connect const QObject sender const char signal const QObject receiver const char slot
  • 华三路由追踪命令 tracert详解

    华三路由追踪命令 tracert 此命令用来查看IPv4报文从源端传到目的端所经过的路径 tracert a source ip f first ttl m max ttl p port q packet number t tos topo
  • python csv读取方法及常用的csv读取代码

    csv文件是一种压缩文件格式 在网络上被广泛使用 csv文件在处理时会被转换成二进制文件 其中包含数据 文本和图像等 下面就是我们使用 python读取 csv文件的过程 我们在进行 csv文件读取的时候 一般会有几种方法 1 直接打开文件
  • MyEclipse 导入的项目WEB-INF文件夹变成包的解决方案

    今天 在svn上面download下来的java web项目 然后导入到MyEclipse中 发现所有的目录 WEB INF 其他文件夹都变成package 我开始以为 是MyEclipse出了问题 其实不然 是因为JavaWeb项目中的根
  • 打包好的jar在linux启动,无法打印日志

    使用nohup java jar xxx jar gt log log 2 gt 1 命令启动jar包 打印出来的日志 打印的日志 是由于logback版本过低 logback xml配置中不支持totalSizeCap配置 totalSi
  • python数据库自动重连_Python mysql(使用pymysql)自动重连

    I m not sure if this is possible but I m looking for a way to reconnect to mysql database when the connection is lost Al
  • 解决:Python3.7版本安装pyinstaller一直失败,报错提示“error: subprocess-exited-with-error”

    Python3 7版本安装pyinstaller一直失败解决 无论是直接pip install pyinstaller还是指定pyinstaller各种版本安装 又或者pycharm进行安装也是失败 再就是重装PIP 还把pyinstall
  • Qt实现网络聊天室(客户端,服务端)

    效果演示 客户端 服务器 连接成功之后 本文福利 莬费领取Qt开发学习资料包 技术视频 内容包括 C 语言基础 Qt编程入门 QT信号与槽机制 QT界面开发 图像绘制 QT网络 QT数据库编程 QT项目实战 QSS OpenCV Quick
  • Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes(2021CVPR)----论文阅读笔记

    Towards Open Vocabulary Object Detection without Human provided Bounding Boxes 论文阅读笔记 Abstract 1 Introduction 如何实现 pseud