【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

2023-05-16

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

2018-CVPR

P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang.

  • 什么是“自上而下”,“自下而上”?

类比人类视觉的注意力机制:

  1. 自上而下:基于某种任务,通过意识,集中地关注某物,比如寻找某物。

  1. 自下而上:场景中有某个突出的、显眼的物体,自动地引发意识信号。

  • 问题:

现在的注意力机制都是自上而下的,将部分完成的字幕或图像内容作为上下文,通过训练,有选择地处理CNN的输出。确定图像区域的最佳数量总是需要在粗和细之间进行艰难地权衡。也很少考虑如何确定受关注的图像区域。

  • 思路:

提出“自下而上”机制(基于Faster R-CNN)和“自上而下”机制,两者结合。

自下而上:发现图像I中的k个显著区域(大小可能不同),每个区域用一个卷积特征向量表示。使用Faster R-CNN实现(需要初始化和预训练),可以看作是一种“硬”注意机制,因为从大量区域中选择了少量的区域。

自上而下:决定不同区域的权重,提取的特征是总区域的加权和(“软”注意),并可以生成标题。它包含两个LSTM网络,第一个LSTM作为视觉注意模型,第二个LSTM作为语言生成模型。第一个LSTM的输入由图像特征v的均值、第二个LSTM上步的输出、上步生成的单词的编码组成。第二个LSTM的输入由第一个LSTM的输出、k个图像特征组成。

  • 方法:

  1. Bottom-up自底向上

Faster R-CNN是一种目标检测模型,识别属于特定类的目标实例,并使用包围框对其定位。

这里,Faster R-CNN结合ResNet-101来提取特征(上图)。RNP利用IoU阈值来对所有区域进行筛选("hard" attention),决定图像中的兴趣区域。Rol pooling给每个选中的区域提取一个小的特征,然后组合在一起作为CNN最后一层的输入。对于每一个区域 i, vi 定义为每个区域的特征(2048维)。

预训练Bottom-Up Attention Model, 首先初始化基于ResNet-101的Faster-RCNN并在ImageNet上进行分类任务的预训练,然后在Genome data上进行训练。为了学习到更好的特征表示,作者增加了一个预测物体属性类别的任务,可以预测区域i的属性。

最终Bottom-Up Attention Model可达到(下图)效果。但我们只要k个区域的特征向量V。

  1. Top-down自顶向下

  1. 第一个LSTM

输入由三部分组成:

每个时间步t,为k个图像特征vi计算归一化的注意力权重αi,t,综合后输入第二个LSTM

(隐藏层h1t等价于Q;v1~vk等价于K;vi等价于V;v^t等价于Z)

  1. 第二个LSTM

输入:

+ 上一步的输出ht-12

每个时间步t,输出ht2,然后计算可能的输出单词的条件分布:

整个输出句子的概率可以看成是所有单词概率的连乘:

  1. 目标函数

还进行了针对句子级别指标的优化,目标函数定义为:

  • 总结:

本文提出了一种结合bottom-up attention和top-down attention的视觉注意力机制,可以看成CNN-Attention + LSTM-Attention。它能够更有效地关注场景的结构,也具有更好地可解释性。bottom-up attention机制就是提取出感兴趣的候选框,可以使用目标检测算法还有很多,可以尝试进行替换。

2022-02-14

by littleoo

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. 的相关文章

  • http 请求参数包含? & 处理

    escape encodeURI encodeURIComponent 区别详解 JavaScript中有三个可以对字符串编码的函数 xff0c 分别是 xff1a escape encodeURI encodeURIComponent x

随机推荐

  • 多个项目共用一个redis

    redis 数据库是由一个整数索引标识 xff0c 而不是由一个数据库名称 默认情况下连接到数据库0 因此多个项目如果配置不做修改都会使用0号数据库 xff0c 会发生冲突 所以 每个项目配置不同的 database 即可解决
  • LoadRunner中参数化技术详解

    LoadRunner中参数化技术详解 LoadRunner在录制脚本的时候 xff0c 只是忠实的记录了所有从客户端发送到服务器的数据 xff0c 而在进行性能测试的时候 xff0c 为了更接近真实的模拟现实应用 xff0c 对于某些信息需
  • 23种设计模式类图

    下边是23种设计模式的类图大汇总 xff0c 23种设计模式解析请移步 http blog csdn net qq 25827845 article details 52932234 1 创建类模式 2 行为类模式 3 结构类模式
  • navicat 复制表结构到word文档做数据库设计格式问题解决

    需求 xff1a 写数据库设计文档 xff0c 需要设计数据字典 xff0c 贴表结构 xff0c 如果是几百张表 一个个填工作量很大 解决方案 xff1a 1 sql查询所有字段 2 整体复制到excel 3 拆分表 xff0c 调整列项
  • vue图片压缩上传组件修改

    判断逻辑 大于200KB 压缩上传 xff0c 否则不做处理上传原始图片 1 安装插件 yarn add image conversion 2 引入 import compressAccurately from 39 image conve
  • new ScriptEngineManager().getEngineByName(“js“)返回null

    问题出现的场景 xff1a 本地开发和生产环境都没问题 xff0c 测试环境 用的docker 报空指针 new ScriptEngineManager getEngineByName 34 js 34 返回null js替换 JavaSc
  • vue a-collapse的默认全部展开

    思路 xff1a activekey的值为默认展开的项 xff0c 要想全部展开 xff0c 就得把所有的key值都加到 activekey中 如下例子 xff0c activekey 61 39 1 39 默认展开第一个 要想全部展开就需
  • 软件工程——软件结构图设计(变换分析设计、事务分析设计、混合流设计)

    结构化设计 SD 是以结构化分析 SA 产生的数据流图为基础 xff0c 将数据流图按一定的步骤映射成软件结构图 SC 一 数据流的类型 结构化设计的目的是要把数据流图映射成软件结构 xff0c 根据数据流的特性 xff0c 一般可分为变换
  • Linux下Appium+Python移动应用自动化测试实战之“Android Emulator Headless”

    腊月二十九写的那篇手把手定位元素编写用例的文章 xff0c 没想到在4天的时间获得了2000多的阅读量 作为一个成熟的概念和框架 xff0c 没想到热度竟然还这么高 博主果断放弃了今天下午的10公里越野 xff0c 加快推出Android
  • Hbase系列---内置过滤器

    HBase为筛选数据提供了一组过滤器 xff0c 通过这个过滤器可以在HBase中的数据的多个维度 xff08 行 xff0c 列 xff0c 数据版本 xff09 上进行对数据的筛选操作 xff0c 也就是说过滤器最终能够筛选的数据能够细
  • org.apache.maven.plugin.war.WarMojo

    maven工程pom文件报错 xff0c org apache maven plugin war WarMojo 在pom文件中的 lt build gt 标签内加入如下代码 lt plugins gt lt plugin gt lt gr
  • js实现各种进制的转换

    使用Integer toString 进制数即可
  • 浅谈软件性能测试中关键指标的监控与分析

    浅谈软件性能测试中关键指标的监控与分析 一 软件性能测试需要监控哪些关键指标 xff1f 软件性能测试的目的主要有以下三点 xff1a 评价系统当前性能 xff0c 判断系统是否满足预期的性能需求 寻找软件系统可能存在的性能问题 xff0c
  • 最全面的MySQL知识点总结

    前言 最近在回顾之前学的知识点 xff0c mysql部分涉及的东西很多 xff0c 所以想写写文章记录一些重要的知识点 xff0c 方便以后回顾 xff0c 同时也分享给大家 xff0c 如果文章中有描述的不对或不足的地方 xff0c 欢
  • Debian和Ubuntu作为程序员桌面系统,推荐哪一个

    Ubuntu买VPS时有CentOS Debian Ubuntu三种操作系统可以选择 xff0c Linux下哪种系统更好是很多新人都会遇到的问题 xff0c 在此 xff0c 我们分析一下Ubuntu CentOS及Debian各自的性能
  • Android相册解决加载大量图片卡顿问题

    Android开发中加载相册是很常用的功能 xff0c 但相册图片过多正常加载会产生卡顿 xff0c 即便使用线程异步加载图片卡顿问题依然得不到改善 正常代码 xff1a span class hljs keyword public spa
  • 专家预测:未来三十年互联网将会变成什么样

    近日 xff0c 美国 未来学家 杂志预测 xff0c 到2030年 xff0c 每个人都将拥有一个独一无二的IP地址 xff0c 人类将组成一个无所不在的互联网 而我国专家预测 xff0c 到2050年 xff0c 互联网虚拟大脑将会出现
  • el-select远程搜索:解决[vue warn] children must be keyed问题

    解决 Vue warn children must be keyed 按照element官网中的远程搜索代码写的 xff0c 但是vue报错 xff1a children must be keyed 输入搜索信息所有选项会被选中 xff0c
  • Maven项目错误解决小结

    Maven项目错误解决小结 注 xff1a 整理错误 xff0c 不喜欢为了一个小问题 xff0c 占篇幅 xff0c 所以请Ctrl 43 F自己查看 xff0c 定位问题 xff0c 愿为解决 注 xff1a 网络上的错误解决经验 xf
  • 【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

    Bottom Up and Top Down Attention for Image Captioning and Visual Question Answering 2018 CVPR P Anderson X He C Buehler