Multi-level Attention Networks for Visual Question Answering阅读笔记

2023-11-09

Multi-level Attention Networks

这个模型可以同时提取高级语义信息和空间信息,模型框架如下所示:

实验模型

该模型分为三个部分,分别是Semantic Attention、Context-aware Visual Attention、Joint Attention Learning。

Semantic Attention

语义注意的工作是从图像中挖掘重要的概念来回答问题。虽然概念检测器已经从图像中检测到了一组对象和动作(例如,“组”、“站立”),但只有那些语义接近问题的概念(即“棒球”),才会通过语义注意来突出显示。

虽然一张图像可以表达多个语义,但是他们并不都是有助于回答特定问题的,所以这里提出对图像表达的语义添加注意力,步骤如下:

1、利用深层卷积神经网络训练概念检测器,,它可以为图像生成语义概念的概率。通过深度卷积神经网络训练概念检测器,表示在图像中出现的每个概念的概率。

这里写图片描述

2、我们训练一个注意网络来衡量词汇表中每个概念与问题之间的语义相关性。使用以下等式来表示对问题编码的模型:

这里写图片描述

我们表示概念时使用和表示问题相同的词汇表和嵌入矩阵,因此它们可以共享相同的语义表示。 具体而言,我们通过双层堆叠嵌入层用语义向量sc表示概念c。 第一层设计为与问题模型共享相同的词嵌入层,第二层使概念向量和问题向量维度相同。

这里写图片描述

接下来,将问题向量和概念向量通过点积操作进行融合,然后将融合结果放到sigmod激活层中去,得到概念与问题的相关性分数。最后将概念-问题的相关性权重和概念-图像的相关性权重相乘,得到概念c的语义注意力权重MC。

我们对所有概念表示加权求和来表示由问题q查询的图像的高级语义信息。

Context-aware Visual Attention

首先对图片进行卷积操作,取最后一个卷积层的输出作为图像的特征,然后将图像特征按区域输入到双向GRU中,将每一步的前向和后向输出组合起来,为每个区域形成一个新的特征向量。新的特征向量不仅包含了对应区域的视觉信息,而且还包含了来自周边区域的上下文信息。

 

GRU操作的公式如下:

其次,我们给每个区域分配一个注意力分数来显示区域和问题之间的关系。我们把每个图像区域和问题进行乘法操作,然后把他们输入到非线性神经网络中,最后使用softmax函数产生图像的注意力权重。

这里写图片描述

对每个区域的权重加权求和,得到整个图像的视觉表示。

这里写图片描述

Joint Attention Learning

我们使用问题作为查询图像不同层次上的信息。在低级视觉特征中,我们通过视觉注意来关注与问题相关的区域,而在高级语义特征中,我们通过语义关注来关注与问题相关的概念。这里将两个不同层次上的注意力融合,我们首先将问题向量加入到从不同层次提取的图像特征中,然后,我们用一个乘法将这两种类型的注意组合在一起。最后,我们将联合特征输入到一个Softmax层中,以预测预定义的候选答案集A的概率。将概率最高的确定为最终答案。

这里写图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Multi-level Attention Networks for Visual Question Answering阅读笔记 的相关文章

随机推荐

  • 深入探索Android稳定性优化

    前言 成为一名优秀的Android开发 需要一份完备的知识体系 在这里 让我们一起成长为自己所想的那样 众所周知 移动开发已经来到了后半场 为了能够在众多开发者中脱颖而出 我们需要对某一个领域有深入地研究与心得 对于Android开发者来说
  • Caffe解惑:为什么Caffe里头有mutable_cpu_data和cpu_data

    一开始看代码的时候会纳闷 为啥caffe里头又一个 cpu data 还要有一个mutable cpu data 其实从字面就可以看出来这个mutable就是易变的意思啦 二话不说翻出源代码看看究竟有啥区别 const void Synce
  • C# 入门教程

    C 简介 C 是一个简单的 现代的 通用的 面向对象的编程语言 它是由微软 Microsoft 开发的 下面列出了C 成为一种广泛应用的专业语言的原因 现代的 通用的编程语言 面向对象 面向组件 容易学习 结构化语言 它产生高效率的程序 它
  • clickhouse-jdbc代码优化实现无感知故障转移及负载均衡

    clickhouse数据库一直以单点功能强悍而闻名 在单点性能上 无人出其右 但是也需要指出的是 clickhouse集群的集群管理功能却是非常薄弱的 比如说无集群统一管理功能 无集群统一读写接口 仅依靠分布式表和副本表 实现了多节点之间数
  • cas cvm服务器虚拟化安装虚拟机,CAS系统如何安装虚拟机

    1 在CVM的云平台中选择一台物理服务器右击 在弹出的选项中选择 增加虚拟机 给虚拟机配置名称 选择操作系统版本 这一步一定要注意 这里选择的操作系统版本指的是会安装对应操作系统版本的驱动 如果这里选择的版本和实际安装的操作系统版本不一致会
  • 使用Python,OpenCV和Hough圆检测图像中的圆

    使用Python OpenCV和Hough圆检测图像中的圆 1 效果图 2 cv2 HoughCircles image method dp minDist 3 源码 参考 前几篇博客中有介绍 使用OpenCV检测图形中的三角形 正方形 矩
  • Oracle sys_guid()函数

    简介 SYS GUID 是Oracle 8i 后提供的函数 产生并返回一个全球唯一的标识符 类似于Java的UUID 使用方法 select sys guid from dual 运行效果 解决乱码 select RAWTOHEX sys
  • JAVA介绍

    1 Java的简单介绍 Java作为C语言和C 的衍生物 其有很多的功能与C语言及C 的功能相似 但是又不同与C语言及C 在Java的领域中 其相对于C语言及C 所具有的特征为没有指针 没有内存管理 具有真正的可移植性 及可以跨平台进行创作
  • 走进音视频的世界——RGB与YUV格式

    在图像的世界里 一般使用RGB作为存储格式 而在视频的世界里 一般使用YUV作为压缩存储格式 有时候面试官会问 为什么视频使用YUV来压缩存储 而不用RGB YUV与RGB有什么区别 两者如何转换的 常见的RGB格式有哪些 常见的YUV格式
  • LInux服务器巡检脚本模版

    Linux服务器巡检脚本模版可以用来定期检查服务器的状态和运行情况 以便及时发现并解决问题 下面是一个简单的巡检脚本模版供参考 bin bash 定义变量 LOG FILE var log server check log EMAIL AD
  • 标签平滑Label Smoothing

    转载 https cloud tencent com developer article 1815786 目录 One hot gt Label Smoothing label smoothing 降低feature norm 标签平滑归一
  • buuctf-[ACTF2020 新生赛]Exec(小宇特详解)

    buuctf ACTF2020 新生赛 Exec 小宇特详解 这里是ping 我首先想到了ping本地 然后用其他语句找到flag 后来看其他人的办法是进行了抓包 这里先用一个常用管道符 1 就是按位或 直接执行 后面的语句 2 逻辑或 如
  • 【漏洞复现】JDWP远程命令执行漏洞

    0x01 简介 JPDA Java Platform Debugger Architecture 即Java平台调试体系架构 Java虚拟机设计的专门的API接口供调试和监控虚拟机使用 JPDA按照抽象层次 又分为三层 分别是 JVM TI
  • IP地址和子网掩码

    本科的时候其实修过计算机网络 但是现在基本上都还给老师了 在这里重新学习一下IP地址的相关内容 1 IP地址的分类 A类 000 127 默认子网掩码 255 0 0 0 B类 128 191 默认子网掩码 255 255 0 0 C类 1
  • 在修复小型森林道路的过程中使用无人机估算土方工程量的可能性

    小规模道路施工作业 主要是土方作业 通常发生在斜坡上 需要有更多的空间进行临时土壤储存 有必要在有限的区域内反复挖掘 临时放置和填充土壤 因此 很难预测和量化进行的土方工程量 因为仅仅通过比较施工前的土壤形状和已完成地面的形状很难确定所有进
  • Ubuntu 20.04从0到跑通yolov5 v6.0

    Ubuntu 20 04 安装与卸载 一 卸载ubuntu 参考 双系统下完全卸载ubuntu 哔哩哔哩 bilibili 二 安装ubuntu 电脑配置 r7000p 3050ti 步骤 制作启动盘 win 下 磁盘管理 压缩卷 压缩多少
  • 公有云和ChatGPT关系不大

    前段时间要过年 休养身体 写长篇 所以公众号停更了两个月 本文解释了AI云为什么不会成为云厂商的重要营收途径 延伸分析了一些云产品的本质 1 流量密码不是财富密码 这两个月才突然热议ChatGPT的朋友 其实技术嗅觉有点迟钝 见识有点落伍
  • IDEA创建java项目src下没有办法创建包文件/MAVEN模块名变灰且模块多道横杠

    1 IDEA中的java项目src下无法创建包文件 原因 这是因为该项目的src文件夹不是源文件夹 解决方法 需右键该文件夹 选择标记 源根 2 MAVEN模块名变灰且模块多道横杠 原因 api项目的pom xml文件被设置在maven忽略
  • 日志框架:slf4j、log4j和logback的基本使用

    slf4j是日志框架的标准 即通用接口 实现了日志框架一些通用的api 而log4j和logback是众多日志框架中的几种 log4j和logback可以单独的使用 也可以绑定slf4j一起使用 1 单独使用时分别调用框架自己的方法来输出日
  • Multi-level Attention Networks for Visual Question Answering阅读笔记

    Multi level Attention Networks 这个模型可以同时提取高级语义信息和空间信息 模型框架如下所示 该模型分为三个部分 分别是Semantic Attention Context aware Visual Atten