论文解读：Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

2023-05-16

这是关于VQA问题的第十二篇系列文章。这篇论文具有很强的指导意义，本篇文章将介绍论文：主要思想；模型方法；试验细节。有兴趣可以查看原文：Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

1，论文思想

这篇论文主要是提出一些细节上的优化提升vqa的结果。主要的细节包括如下：

sigmoid output：在结果预测时，允许有多个答案。对每个候选答案采用sigmoid方法预测。
use soft scores as ground truth targets：预测时采用回归预测，预测概率。而不是传统的分类。
gated tanh activations：激活函数采用tanh
image features from bottom-up attention：图像特征提取办法采用目标检测方法。
pretrained representations of candidate answers：在预测答案是权重进行初始化。
large mini-batches and smart shuffling：训练过程中batch大小和混排。

2，模型架构

这篇论文的模型也是借鉴其他论文的模型架构，主要的优化是在一些细节上。
在这里插入图片描述

a.Question embedding：采用GRU进行编码问题

词向量采用GloVe词向量（300维）；词向量中没有的初始化为0；文本长度用14截断；GRU内部状态为512。

b.Image features：图像特征，有两种方式

直接用cnn：使用预训练的ImageNet，比如说，200-layer ResNet，得到772048
bottom-up attention：使用Faster R-CNN framework提取图像中的topk目标。k可以调节，最大取100。

c.Image attention：图像的attention，当然了还可以考虑多次attention、stack等

在这里插入图片描述

d.Multimodal fusion：特征融合

对图像和问题的特征先进行变换，在进行对应元素相乘。
在这里插入图片描述

e.Output classifier：预测答案

对每个候选答案预测
目标函数：每个答案的标注也是（0,1）的soft score。
这样的好处：每个问题可以有多个答案；soft scores比二进制的目标具有更加丰富的信息。

f.Pretraining the classifier：修改预测答案的部分，（修改公式5的部分）

w_o：连接了答案和特征之间的关系。这个可以使用Pretraining，可以加入candidate answers先验信息。
文本的先验知识：candidate answer词向量的向量矩阵
图像的先验知识：用Google Images检索与candidate answer相关的10 photographs，针对每个答案选10个图像。采用ResNet-101 CNN提取图像特征，对结果进行mean-pooled，这样每个答案得到2048-sized vector。得到一个向量矩阵。
得分计算：

g.Nonlinear layers：论文中所有的非线性变换：

在这里插入图片描述

3，论文的主要贡献：

论文很好的给出了vqa问题的指导路线。
论文提出很多的优化细节。
论文实验部分很丰富，有很多可以借鉴的地方，详细可以看原论文。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tips

and

Tricks

for

Visual

论文解读：Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge 的相关文章

Country Codes and Language Codes

ISO 3166 Country Codes and ISO 639 Language Codes 1 ISO 3166 Country Codes Table 20 1 ISO 3166 Country Codes Country ISO
Ubuntu 16.04下安装visual studio code

一坑和解决办法很多帖子上写的方法都是使用命令方式 xff1a 1 先安装make sudo add apt repository ppa ubuntu desktop ubuntu make sudo apt get update su
Concept Whitening(for Interpretable Image Recognition)

和BatchNorm相比有很多优点 xff0c 并且可以直接替换BatchNorm 有更好的interpretability xff08 可解释性 xff09 xff0c 可以可视化得解释神经网络层的含义 xff08 这是最突出的特点 xf
最短路径算法之AStar算法(三) 《A* Pathfinding for Beginners》一文中的两个问题

现在 xff0c 看看网上流传的很广的一篇文章 A Pathfinding for Beginners xff0c 经典的A STar算法的入门文章 xff0c 也是我前面推荐的阅读文章个人认为 xff0c 这篇入门文章的算法不能找出最短
重装正版Windows 10和Microsoft office home and student 2019教程（2020.10.29）

目录环境准备 xff1a 一个U盘 xff08 至少8G xff09 步骤第一步利用微软下载工具制作U盘启动盘到微软官网下载Windows 10 界面 xff0c 点击立即下载工具后会弹出一个下载界面 xff0c 下载此文件Med
VS Code For Web 深入浅出 -- 进程间通信篇

在上一篇中 xff0c 我们一起分析了 VS Code 整体的代码架构 xff0c 了解了 VS Code 是由前后端分离的方式开发的且无论前端是基于 electron 还是 web xff0c 后端是本地还是云端 xff0c 其调用方式
Visual Assist 在VS2022中安装失败问题

直接找到C Users xxxxx AppData Local Microsoft VisualStudio 17 0 xxxxx 文件夹直接右击删除这个文件夹注意要在VS2022关闭时再删除可以先做一次备份正常运行安装VA X S
使用CMake和Visual Studio搭建工程并引入OpenCV库

前言 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp 在之前的Windows平台下OpenCV的编译与安装 Mega Li的博客 CSDN博客 nbsp 中介绍了Windows平台中使用CMake编译Open
NVIDIA Jetson Xavier NX/NANO安装Visual Studio Code

官网下载安装即可步骤 xff1a 1 官网下载安装包 Visual Studio Code Code Editing Redefined 下载Ubuntu版本 deb格式安装包 xff0c 注意要下载ARM64的 2 将文件传输至开发板
Tips for Qt

Based on Qt 5 14 0 Qt Creator 4 11 0 1 在UI设计界面添加控件后 xff0c 要编译一下 xff0c 再到编辑界面写代码 xff0c 否则系统不识别新添加的控件 2 多看帮助文档 xff0c 好多开发时
Visual Studio中设置opencv环境

图像处理的项目中 xff0c 每建立一个新的项目 xff0c 需要对环境重新设置 xff0c 本文记录一下自己在VS中设置环境的步骤 xff0c 也分享给相同的入门小白本文侧重说明VS中调用opencv的环境设置步骤 xff0c open
Arduino for ESP32-----ESP-NOW介绍及使用

ESP NOW ESP NOW介绍ESP NOW支持以下特性ESP NOW技术也存在以下局限性获取ESP32的MAC地址ESP NOW单向通信 One way communication ESP32单板间的双向通信一对多通信 xff08 一
TabError: inconsistent use of tabs and spaces in indentation

错误原因是tab制表符和空格混用了从其他地方复制源码容易出现此错误解决办法 xff1a 把处于同级缩进的所有缩进修改统一比较流行的几个编辑器都能标识tab和空格 xff0c 比如我用的vscode 用鼠标框选不知道是tab还是空格的
v-if和v-for的优先级

文章目录 vue2vue3 vue2 v for优先级比v if高v for与v if作用在不同标签时候 xff0c 是先进行判断 xff0c 再进行列表的渲染注意事项永远不要把 v if 和 v for 同时用在同一个元素上 xff0
java 优化双重for循环

首先我们要有两个对象分别是学生信息和学生住宿信息 span class token keyword class span span class token class name Student span span class toke
Visual Studio 2022下载安装

Visual Studio 2022下载安装 1 进入官网官网地址 xff1a https visualstudio microsoft com 这里以Windows操作系统为例根据需要选择版本 xff0c 我这里下载的是Enterpr
Python语法：... for ... in ... if ...

Python中 for in if 语句是一种简洁的构建List的方法从for给定的List中选择出满足if条件的元素组成新的List 其中if是可以省略的下面举几个简单的例子进行说明 for in for in 语句实例如下 1 a
如何获取股票预测数据集“上海证券综合指数”（上证综指，Shanghai Composite Index）？

以下网址可提供较为全面的数据集涵盖Date Opening price Highest price Lowest price Closing price Volume Turnover Ups and Downs Change指标即日期
Windows巧用git实现笔记自动备份

Windows巧用git实现笔记自动备份准备git仓库配置自动上传脚本设置 Windows 自动定时任务参考文献今天突然发现可以使用Gitee加上Windows定时任务实现Windows端的笔记自动备份多端同步历史回溯
7z命令行加密文件夹和文件名

因为有时候需要将非常机密的东西上传到网盘毕竟网盘也不一定安全而每次都鼠标点添加密码很麻烦然后就用命令行脚本弄快电脑安装7zip 在你要压缩的文件夹打开命令行 7z a r pABC12345 mhe on test 7z a 添加f

随机推荐

cas5.2.6 搭建cas服务端

1 打包cas服务器端war包下载cas overlay template 5 2 zip 1 1配置pom xml lt dependencies gt lt dependency gt lt groupId gt org apereo
PHP516 用phpize增加扩展PDO_OCI和OCI8

环境 xff1a centos5 5 PHP5 1 6 oracle10 2 0 5 客户端 1 从oracle官网下载oracle客户端包 oracle instantclient basic 10 2 0 5 1 i386 rpm or
npm ERR! enoent This is related to npm not being able to find a file.解决

一问题描述运行sudo npm install color name出现如下错误 xff1a npm ERR path root blog node modules color namenpm ERR code ENOENT npm E
ROS中最重要的变量$ROS_PACKAGE_PATH

昨天刚成功安装了ardrone autonomy 和 tum ardrone xff0c 运行也是通过了今天又尝试了一下昨天的命令 xff0c 结果发现tum ardrone居然又运行不了了 xff0c 郁闷 xff01 说是没有在环境变
用TIKZ在LaTex中画图

我之前是用Edraw max画图的 xff0c 但是有一个致命的问题就是在图上写字母的时候与图解释中不一致 xff0c 所以尝试了一下LaTex画图 xff0c 哎呀 xff0c 耗费我一下午的时间呀首先导入包 xff1a usepack
NLP中三种特征抽取器的优与劣

RNN LSTM GRU xff1a 缺点 xff08 1 xff09 xff1a 无法并行 xff0c 因此速度较慢 xff08 2 xff09 xff1a RNN无法很好地学习到全局的结构信息 xff0c 尤其对于序列结构很长的 CNN
python List中元素两两组合

aa span class token operator 61 span span class token punctuation span span class token string 39 a 39 span span class t
JRE not compatible with project .class file compatibility: 1.7

电脑上刚装了jdk1 7 xff0c 运行一般程序的时候没有出现什么问题 xff0c 由于内存不够用 xff0c 在设置虚拟内存时却出现问题 xff0c 如下 xff1a 还好找到了解决办法 xff0c 错误的原因是JRE库配置与Java
BufferedWriter 的 flush() 方法

package com corpus import java io import java util List import edu stanford nlp ling HasWord import edu stanford nlp lin
正则表达式匹配连续多个空格或tab空格

Pattern p 61 Pattern compile 34 s 2 t 34 Matcher m 61 p matcher str String strNoBlank 61 m replaceAll 34 34 System out p
LaTex中插入花体字母

特别要注意的是 xff1a 在LaTeX中 xff0c 别把希腊字母和英文的花体字母搞混哦 xff0c 哈哈举个例子 xff1a 后面显示的 X 不是希腊字母西即也就是说不能通过 Chi 的方式插入这个特殊符号 xff0c 正确的花
气哭了的C++调试，cmake 找不到 eigen

这才刚刚开头 xff0c 可是就是不知道错误在哪里 xff1f 百度了问题后 xff0c 打开了很多很多相关的解答 xff0c 从昨天上午遇到这个问题 xff0c 历经昨天下午和晚上 xff0c 还是错误 xff0c 终于在今天上午圆满解决
对ORACLE SCN的理解

1 SCN数值实际来源于系统的timestamp xff0c 这个实际可以证明 select current scn from v database select timestamp to scn sysdate from dual 这两个
Ubuntu 下终端界面转图形界面

在运行程序的时候 xff0c 错误的使用了快捷键 ctrl 43 alt 43 F10 然后 unbuntu就黑屏了 xff0c 整个界面只剩下左上角有一个白色的字符在闪 xff0c 然后 Ctrl 43 alt 43 F2时跳出终端的登录
python错误:TypeError: 'module' object is not callable

TrainCorpusStructure py 文件中的代码如下 xff1a class TrainCorpusStructure inputs 61 Demo py中的代码如下 xff1a from corpusProcess impor
python 除法保留两位小数点

span class hljs operator a span 61 span class hljs number 1 span b 61 span class hljs number 3 span print span class hlj
pytorch中contiguous()

contiguous xff1a view只能用在contiguous的variable上如果在view之前用了transpose permute等 xff0c 需要用contiguous 来返回一个contiguous copy 一种可
tensorflow中control_flow_ops.while_loop

self h0 61 tf zeros self batch size self hidden dim self h0 61 tf stack self h0 self h0 相当于 h0和C0 generator on initial r
k8s基础

目录一基本介绍二组件介绍 1 master组件 2 node组件三核心概念 1 Pod 2 controller 3 service 四单master搭建集群 1 系统初始化 2 安装k8s核心组件 3 容器化安装其他插件 4
论文解读：Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

这是关于VQA问题的第十二篇系列文章这篇论文具有很强的指导意义 xff0c 本篇文章将介绍论文 xff1a 主要思想 xff1b 模型方法 xff1b 试验细节有兴趣可以查看原文 xff1a Tips and Tricks for Vi