【文献阅读】BUTD——自上而下注意力机制的视觉问答系统(P. Anderson等人,CVPR,2018,有代码)

2023-05-16

一、文献概况

文章题目:《Bottom-up and top-down attention for image captioning and visual question answering》

偶然看到VQA(visual question answering),才发现VQA才是最接近我课题研究的模型,接下来一段时间可能要深入VQA的相关学习了。这篇文章是作者在微软实习的时候发表的,被CVPR2018收录。

文献下载地址:https://arxiv.org/pdf/1707.07998.pdf

文献引用格式:P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

项目地址:http://www.panderson.me/up-down-attention(也可参考https://github.com/peteanderson80/bottom-up-attention)

二、文献导读

这篇文章是2018年的CVPR文章,网上解读比较少,放上一篇:

[1]论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

[2]视觉问答:VQA经典模型Up-Down以及VQA 2017challenge 冠军方案解读

下面给出文章的摘要部分:

Top-down visual attention mechanisms have been used extensively in image captioning and visual question answering (VQA) to enable deeper image understanding through fine-grained analysis and even multiple steps of reasoning. In this work, we propose a combined bottom-up and top-down attention mechanism that enables attention to be calculated at the level of objects and other salient image regions. This is the natural basis for attention to be considered. Within our approach, the bottom-up mechanism (based on Faster R-CNN) proposes image regions, each with an associated feature vector, while the top-down mechanism determines feature weightings. Applying this approach to image captioning, our results on the MSCOCO test server establish a new state-of-the-art for the task, achieving CIDEr / SPICE / BLEU-4 scores of 117.9, 21.5 and 36.9, respectively. Demonstrating the broad applicability of the method, applying the same approach to VQA we obtain first place in the 2017 VQA Challenge.

作者结合从底到顶(bottom-up)自上而下(top-down)的注意力机制,从对象层面计算图像中的显著区域。基于Faster RCNN的从底到顶机制,用特征向量来处理图像中的区域,自上而下机制则计算特征的权重。将模型用于MSCOCO数据集,取得了较好的效果。

三、文献介绍

尽管注意力机制在文字和图像领域都有了很多应用,但是对于视觉问答来说,并没有考虑到注意力机制在图像区域中是如何运作的。比如下面这样:

左边就是传统的CNN网络在引入注意力机制的时候,图像区域会分成大小均一的格网,而右边是本文提出的方法,注意力则是对象层次的目标。

这篇文章提出了从下到上(bottom-up)与自上而下(top-down)相结合的注意力模型方法。从底到顶处理图像显著区域,每一个区域都用一个池化卷积特征向量来表示,模型则采用Faster RCNN;自上而下则基于task-specific的背景来预测图像区域中注意力的分布,然后计算得到的特征向量作为权重。最后作者将自己的模型分别用于image caption和VQA,在2017 VQA Challenge数据集上获得了70.3%的总体精度。

下面来看下作者的模型是如何设计的。

(1)自底到顶的注意力模型(Bottom-Up Attention Model)

背景框架采用的是Faster R-CNN结构,Faster R-CNN能够进行目标检测,整个过程分为两个阶段:第一阶段用候选框(Region Proposal Region)预测目标区域,第二阶段使用ROI(region of interesting)池化对每一个候选框提取特征(feature map)。作者采用了嵌入ResNet-101的Faster R-CNN结构,然后对每一个使用了IoU阈值(intersection-over-union)的目标进行非极大值抑制(non-maximum suppression),将超过置信阈值的所有可能类别记录。在这个过程中,Faster R-CNN充当一种硬注意力(hard attention)机制。该过程的loss函数有四部分。下面是该过程的一个简要结果:

(2)命题模型(Captioning Model)

我关注的重点在于VQA模型,所以这部分做简要介绍。

命题模型是一种从上到下软注意力(soft attention)机制,它在命题的过程中计算每种特征的权重。该模型由两个LSTM组成,它的结构可以表示为:

从上到下的注意力LSTM(Top-Down Attention LSTM):这一步的输入是语言LSTM(Language LSTM)的前一步输出和平均池化后的图像特征v(前面自顶到底注意力模型的输出是特征集V,再平均池化得到)和先前生成的文字编码(文字嵌入矩阵与one-hot编码的乘积)。

语言LSTM(Language LSTM):这一步输入的是注意力处理后的图像特征(attended image feature),和前一步Attention LSTM网络的输出。

如果我们用y表示文字序列,该模型最终则需要最小化如下交叉熵:

最后,为了便于与其他模型比较,作者还对负期望得分(negative expected score)进行优化比较。

(3)视觉问答模型(VQA Model)

该模型使用的是问题和图像的多模态嵌入(multimodal embedding),示意图如下所示:

这里的网络架构中,作者用到的激活函数是tanh。首先对问题进行编码,作为GRU(gated recurrent unit)的隐藏状态,之后对于图像特征,根据GRU的输出来生成非标准化注意力权重,最后再计算标准化的注意力权重和注意力图像特征。由于篇幅限制,这篇文章没有过多介绍VQA的细节问题,但是作者给出了一篇参考文献:

[3] D. Teney, P. Anderson, X. He, and A. van den Hengel. Tips and tricks for visual question answering: Learnings from the 2017 challenge. In CVPR, 2018. 5, 10

最后就是作者的实验结果了。首先是image captioning,作者用在了MSCOCO2014数据集上,实验效果:

不同模型之间的性能比较:

接下来是VQA,作者用了VQA challenge 2017数据集,实验效果如下:

不同模型针对不同类型问题的结果比较:

文章的最后作者还给出了模型的参数设置情况,以及众多的实验结果,包括成功的和失败的,这里放一些供欣赏:

成功的VQA例子:

失败的VQA例子:

四、小结

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【文献阅读】BUTD——自上而下注意力机制的视觉问答系统(P. Anderson等人,CVPR,2018,有代码) 的相关文章

随机推荐