【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

2023-05-16

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

2018-CVPR

P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang.

什么是“自上而下”，“自下而上”？

类比人类视觉的注意力机制：

自上而下：基于某种任务，通过意识，集中地关注某物，比如寻找某物。

自下而上：场景中有某个突出的、显眼的物体，自动地引发意识信号。

问题：

现在的注意力机制都是自上而下的，将部分完成的字幕或图像内容作为上下文，通过训练，有选择地处理CNN的输出。确定图像区域的最佳数量总是需要在粗和细之间进行艰难地权衡。也很少考虑如何确定受关注的图像区域。

思路：

提出“自下而上”机制(基于Faster R-CNN)和“自上而下”机制，两者结合。

自下而上：发现图像I中的k个显著区域(大小可能不同)，每个区域用一个卷积特征向量表示。使用Faster R-CNN实现(需要初始化和预训练)，可以看作是一种“硬”注意机制，因为从大量区域中选择了少量的区域。

自上而下：决定不同区域的权重，提取的特征是总区域的加权和（“软”注意），并可以生成标题。它包含两个LSTM网络，第一个LSTM作为视觉注意模型，第二个LSTM作为语言生成模型。第一个LSTM的输入由图像特征v的均值、第二个LSTM上步的输出、上步生成的单词的编码组成。第二个LSTM的输入由第一个LSTM的输出、k个图像特征组成。

方法：

Bottom-up自底向上

Faster R-CNN是一种目标检测模型，识别属于特定类的目标实例，并使用包围框对其定位。

这里，Faster R-CNN结合ResNet-101来提取特征（上图）。RNP利用IoU阈值来对所有区域进行筛选("hard" attention)，决定图像中的兴趣区域。Rol pooling给每个选中的区域提取一个小的特征，然后组合在一起作为CNN最后一层的输入。对于每一个区域 i, vi 定义为每个区域的特征(2048维)。

预训练Bottom-Up Attention Model, 首先初始化基于ResNet-101的Faster-RCNN并在ImageNet上进行分类任务的预训练，然后在Genome data上进行训练。为了学习到更好的特征表示，作者增加了一个预测物体属性类别的任务，可以预测区域i的属性。

最终Bottom-Up Attention Model可达到（下图）效果。但我们只要k个区域的特征向量V。

Top-down自顶向下

第一个LSTM

输入由三部分组成：

每个时间步t，为k个图像特征vi计算归一化的注意力权重αi,t，综合后输入第二个LSTM

（隐藏层h1t等价于Q；v1~vk等价于K；vi等价于V；v^t等价于Z）

第二个LSTM

输入：

＋上一步的输出ht-12

每个时间步t，输出ht2，然后计算可能的输出单词的条件分布：

整个输出句子的概率可以看成是所有单词概率的连乘：

目标函数

还进行了针对句子级别指标的优化，目标函数定义为：

总结：

本文提出了一种结合bottom-up attention和top-down attention的视觉注意力机制，可以看成CNN-Attention + LSTM-Attention。它能够更有效地关注场景的结构，也具有更好地可解释性。bottom-up attention机制就是提取出感兴趣的候选框，可以使用目标检测算法还有很多，可以尝试进行替换。

2022-02-14

by littleoo

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. 的相关文章

http 请求参数包含? & 处理

escape encodeURI encodeURIComponent 区别详解 JavaScript中有三个可以对字符串编码的函数 xff0c 分别是 xff1a escape encodeURI encodeURIComponent x

随机推荐

多个项目共用一个redis

redis 数据库是由一个整数索引标识 xff0c 而不是由一个数据库名称默认情况下连接到数据库0 因此多个项目如果配置不做修改都会使用0号数据库 xff0c 会发生冲突所以每个项目配置不同的 database 即可解决
LoadRunner中参数化技术详解

LoadRunner中参数化技术详解 LoadRunner在录制脚本的时候 xff0c 只是忠实的记录了所有从客户端发送到服务器的数据 xff0c 而在进行性能测试的时候 xff0c 为了更接近真实的模拟现实应用 xff0c 对于某些信息需
23种设计模式类图

下边是23种设计模式的类图大汇总 xff0c 23种设计模式解析请移步 http blog csdn net qq 25827845 article details 52932234 1 创建类模式 2 行为类模式 3 结构类模式
navicat 复制表结构到word文档做数据库设计格式问题解决

需求 xff1a 写数据库设计文档 xff0c 需要设计数据字典 xff0c 贴表结构 xff0c 如果是几百张表一个个填工作量很大解决方案 xff1a 1 sql查询所有字段 2 整体复制到excel 3 拆分表 xff0c 调整列项
vue图片压缩上传组件修改

判断逻辑大于200KB 压缩上传 xff0c 否则不做处理上传原始图片 1 安装插件 yarn add image conversion 2 引入 import compressAccurately from 39 image conve
new ScriptEngineManager().getEngineByName(“js“)返回null

问题出现的场景 xff1a 本地开发和生产环境都没问题 xff0c 测试环境用的docker 报空指针 new ScriptEngineManager getEngineByName 34 js 34 返回null js替换 JavaSc
vue a-collapse的默认全部展开

思路 xff1a activekey的值为默认展开的项 xff0c 要想全部展开 xff0c 就得把所有的key值都加到 activekey中如下例子 xff0c activekey 61 39 1 39 默认展开第一个要想全部展开就需
软件工程——软件结构图设计（变换分析设计、事务分析设计、混合流设计）

结构化设计 SD 是以结构化分析 SA 产生的数据流图为基础 xff0c 将数据流图按一定的步骤映射成软件结构图 SC 一数据流的类型结构化设计的目的是要把数据流图映射成软件结构 xff0c 根据数据流的特性 xff0c 一般可分为变换
Linux下Appium+Python移动应用自动化测试实战之“Android Emulator Headless”

腊月二十九写的那篇手把手定位元素编写用例的文章 xff0c 没想到在4天的时间获得了2000多的阅读量作为一个成熟的概念和框架 xff0c 没想到热度竟然还这么高博主果断放弃了今天下午的10公里越野 xff0c 加快推出Android
Hbase系列---内置过滤器

HBase为筛选数据提供了一组过滤器 xff0c 通过这个过滤器可以在HBase中的数据的多个维度 xff08 行 xff0c 列 xff0c 数据版本 xff09 上进行对数据的筛选操作 xff0c 也就是说过滤器最终能够筛选的数据能够细
org.apache.maven.plugin.war.WarMojo

maven工程pom文件报错 xff0c org apache maven plugin war WarMojo 在pom文件中的 lt build gt 标签内加入如下代码 lt plugins gt lt plugin gt lt gr
js实现各种进制的转换

使用Integer toString 进制数即可
浅谈软件性能测试中关键指标的监控与分析

浅谈软件性能测试中关键指标的监控与分析一软件性能测试需要监控哪些关键指标 xff1f 软件性能测试的目的主要有以下三点 xff1a 评价系统当前性能 xff0c 判断系统是否满足预期的性能需求寻找软件系统可能存在的性能问题 xff0c
最全面的MySQL知识点总结

前言最近在回顾之前学的知识点 xff0c mysql部分涉及的东西很多 xff0c 所以想写写文章记录一些重要的知识点 xff0c 方便以后回顾 xff0c 同时也分享给大家 xff0c 如果文章中有描述的不对或不足的地方 xff0c 欢
Debian和Ubuntu作为程序员桌面系统，推荐哪一个

Ubuntu买VPS时有CentOS Debian Ubuntu三种操作系统可以选择 xff0c Linux下哪种系统更好是很多新人都会遇到的问题 xff0c 在此 xff0c 我们分析一下Ubuntu CentOS及Debian各自的性能
Android相册解决加载大量图片卡顿问题

Android开发中加载相册是很常用的功能 xff0c 但相册图片过多正常加载会产生卡顿 xff0c 即便使用线程异步加载图片卡顿问题依然得不到改善正常代码 xff1a span class hljs keyword public spa
专家预测:未来三十年互联网将会变成什么样

近日 xff0c 美国未来学家杂志预测 xff0c 到2030年 xff0c 每个人都将拥有一个独一无二的IP地址 xff0c 人类将组成一个无所不在的互联网而我国专家预测 xff0c 到2050年 xff0c 互联网虚拟大脑将会出现
el-select远程搜索：解决[vue warn] children must be keyed问题

解决 Vue warn children must be keyed 按照element官网中的远程搜索代码写的 xff0c 但是vue报错 xff1a children must be keyed 输入搜索信息所有选项会被选中 xff0c
Maven项目错误解决小结

Maven项目错误解决小结注 xff1a 整理错误 xff0c 不喜欢为了一个小问题 xff0c 占篇幅 xff0c 所以请Ctrl 43 F自己查看 xff0c 定位问题 xff0c 愿为解决注 xff1a 网络上的错误解决经验 xf
【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

Bottom Up and Top Down Attention for Image Captioning and Visual Question Answering 2018 CVPR P Anderson X He C Buehler

【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. 的相关文章

随机推荐

热门标签