《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

2023-05-16

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

一、研究背景

Bilinear models在视觉问答（VQA）任务中进行信息融合提供了一个吸引人的框架。它们有助于学习question meaning 和 visual concepts in the image之间的高层次关系，但它们存在高维度问题。论文引入MUTAN，a multimodal tensor-based Tucker decomposition ，有效地参数化visual和text表示之间的双线性相互作用。除了Tucker framework之外，还设计了一种基于矩阵的低阶分解来明确约束交互等级。使用MUTAN，可以控制合并方案的复杂性，同时保持良好的可解释融合关系。

二、文章贡献

1、VQA的新融合方案依赖于基于Tucker张量的分解，包括分解为三个矩阵和核心张量。论文中证明了MUTAN融合方案推广了最新的双线性模型，即MCB [5]和MLB [8]，同时具有更强的表现力；
2、Additional structured sparsity 约束核心张量以进一步控制模型参数的数量。这在训练期间充当正则化器并防止过度拟合，使我们能够更灵活地调整输入/输出预测；
3、在最常使用的数据集VQA上取得很好的结果，文中还表明MUTAN在相同的设置的条件下，结果优于MCB 和MLB ，并且当与MLB结合时可以进一步提高性能，验证两种方法之间的互补可能性。

三、实验模型

这里写图片描述
text特征提取： fully convolutional neural network(ResNet-152) 提取图像特征，得到v；
**image特征提取：**a GRU recurrent network 提取文本特征，得到q;
Fusion and Bilinear models

在MUTAN中，我们使用Tucker decomposition对全张量T进行分解。通过构造第二张量T c来完成我们的分解（见图2中的灰色框），以保持输入/输出维度的灵活性，同时保持参数的数量易处理。

Tucker decomposition

这里写图片描述

Multimodal Tucker Fusion

这里写图片描述

Tensor sparsity

这里写图片描述

四、实验结论

我们的模型将Tucker decomposition与low-rank matrix constraint相结合。它旨在控制full bilinear交互的复杂性。 MUTAN将交互张量分解为可解释的元素，并允许轻松控制模型的表达性。我们还展示了Tucker分解框架如何概括最具竞争力的VQA架构。 MUTAN在最新的VQA数据集上进行评估，达到了最新技术水平。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MUTAN

Multimodal

Tucker

Fusion

for

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记的相关文章

DATA FUSION CONTEST 2019 and 1st Solution

比赛信息 xff1a 链接 The Contest Goals and Organisation The 2019 Data Fusion Contest organized by the Image Analysis and Data F
【PyCharm】Couldn‘t refresh skeletons for remote interpreter: Can‘t get remote credentials for server

错误描述连接远程服务器的pycharm崩溃后 xff0c 程序无法调试 xff0c 出现错误 xff1a Couldn 39 t refresh skeletons for remote interpreter Can 39 t get
【旋转框目标检测】2201_The KFIoU Loss For Rotated Object Detection

paper with code paper code Jittor Code https github com Jittor JDet PyTorch Code https github com open mmlab mmrotate Te
VINS - Fusion GPS/VIO 融合二、数据融合

https zhuanlan zhihu com p 75492883 一简介源代码 xff1a VINS Fusion 数据集 xff1a KITTI 数据程序入口 xff1a globalOptNode cpp 二程序解读 2
vins-fusion代码解读[二] 惯性视觉里程结果与GPS松耦合

感谢 slam萌新 xff0c 本篇博客部分参考 xff1a https blog csdn net weixin 41843971 article details 86748719 欢迎讨论惯性视觉里程结果与GPS松耦合 xff1a g
navicat for mysql自增_mysql，navicat怎么设置主键自增

Navicat是应用比较多的mysql的视图管理工具下面记录下Navicat如何设置主键自增的操作 1 找到需要操作的表右键找到设计表 2 找到对应的字段改为int型在下面会出现自动递增的勾选 xff0c 勾上即可注意 xff0c
Ubuntu20.04跑VINS-fusion

Ubuntu20 04跑VINS Fusion 使用docker 由于工程较大 xff0c 依赖较多 xff0c 环境配置十分繁琐 xff0c 故使用docker环境来运行VINS Fusion Docker 可以让开发者打包他们的应用以及
Mac上vmware fusion装的ubuntu不能与主机复制粘贴的问题

解决方法一 xff1a 安装vmware tools 依次点击 xff1a 虚拟机 gt 安装vmware tools 会在ubuntu桌面上出现vmware tools xff0c 双击打开解压tar gz包 xff0c 执行解压命令t
TX2上布置vins_fusion_gpu指南

1 参考链接如果初次安装 xff0c 新的TX2环境 xff0c 请参考文档 https github com arjunskumar vins fusion gpu tx2 nano 2 问题记录 1 xff0c 自己的环境情况我的环
Arduino for ESP32-----ESP-NOW介绍及使用

ESP NOW ESP NOW介绍ESP NOW支持以下特性ESP NOW技术也存在以下局限性获取ESP32的MAC地址ESP NOW单向通信 One way communication ESP32单板间的双向通信一对多通信 xff08 一
学习ROS-Academy-for-Beginners-noetic，修改记录

一编译安装ROS Academy for Beginners noetic 可以参考我之前的博客ROS Academy for Beginers noetic安装教程之后可以看到里面提供了很多例程 xff0c 包括软件包内容 rob
Python语法：... for ... in ... if ...

Python中 for in if 语句是一种简洁的构建List的方法从for给定的List中选择出满足if条件的元素组成新的List 其中if是可以省略的下面举几个简单的例子进行说明 for in for in 语句实例如下 1 a
Java 控制结构练习题

练习1 某人有100 000元每经过一次路口需要交费规则如下 1 当现金 gt 50000时每次交5 2 当现金 lt 50000时每次交1000 编程计算该人可以经过多少次路口要求使用while break方式完成 publ
教妹学Java(十五)：for循环详解

你好呀我是沉默王二一枚颜值与才华俱在的程序员本篇教程通过我和三妹对话的形式来谈一谈 for while do while 循环之间的差别以及重点介绍一下 for 循环 while do while 会在接下来的教程中单独介绍教妹学
第二节分支和循环语句

第二节分支和循环语句目录一什么是语句二分支语句选择结构三循环语句本章重点分支语句 if switch 循环语句 while for do while goto语句一什么是语句 C语句可分为以下五类表达式语句函数
matlab for循环坑

matlab 用 for 嵌套循环遍历数组时可能有 bug matlab octave 环境 linux Matlab R2018a 1 windows GNU Octave version 5 2 0 以 for x vector 的形
CLR 何时尝试加载引用的程序集？

我想编写一个小型安装程序应用程序来安装网站并创建 IIS 虚拟目录该应用程序应在 Windows XP Server 2003 IIS 6 以及 Vista 2008 IIS 7 上运行问题是对于 IIS 6 我们通过调用 WMI M
如何解决：自定义 MSBuild 任务需要在 AppBase 外部进行组装

我有一个自定义任务想要在构建 C 项目时执行此任务位于 MyTask dll 中它引用另一个程序集 MyCommon DLL 问题是 MyCommon dll 相对于 MyTask dll 位于 Common MyCommon dll
fusion 能看穿新型包装吗？

Given newtype MyVec MyVec unVec Data Vector deriving Functor etc 这将创建类似于 instance Functor MyVec where fmap f MyVec Data
Java 流惰性 vs 融合 vs 短路

我试图对 Java 流 API 中惰性求值的应用形成一个简洁而连贯的理解目前我的理解是这样的元素仅在需要时才被消耗即流是惰性的并且中间操作是惰性的例如过滤器仅在需要时进行过滤中间操作可以融合在一起如果它们是无状态的短路操作

随机推荐

Ubuntu16.04 安装，更新与卸载Docker CE

Ubuntu16 04 安装 xff0c 更新与卸载Docker CE 污污老师关注 2017 11 14 23 40 字数 1019 阅读 3079评论 0喜欢 1 Docker CE 17 09 操作系统要求 xff1a 一个64位的
零基础学习OpenGL（八）--立方体贴图、天空盒、环境映射

立方体贴图将多个纹理组合起来映射到一张纹理上的一种纹理类型 xff1a 立方体贴图 Cube Map 立方体贴图 xff1a 一个包含了6个2D纹理的纹理 xff0c 每个2D纹理都组成了立方体的一个面 xff1a 一个有纹理的立方体之
Centos7下VNC离线安装(个人纪录)

Centos7下VNC离线安装个人纪录 1 官网下载rpm包下载地址 2 执行安装命令 xff1a rpm Uvh tigervnc server 1 8 0 17 el7 x86 64 rpm 3 检查安装情况 xff1a rpm q
thinclient_drives

ubuntu上安装xrdp搭建远程桌面 xff0c 后面远程桌面是可以了 xff0c 但是用户目录下生出了一个thinclient drives文件夹 xff0c 无论是不是root都不能删除 xff0c 如果你有强迫症 xff0c 你就感
解决虚拟机下的ubuntu不能上网的问题

解决虚拟机下的ubuntu不能上网的问题 2017年09月25日 19 31 39 ray7777777777 阅读数 xff1a 3676 1 打开虚拟机VM 2 右键ubuntu 设置网络适配器选中NAT模式 xff1a 用于共享主
云原生|kubernetes|rancher-2.6.4安装部署简明手册

前言 rancher是一个比较特殊的开源的kubernetes管理工具 xff0c 特殊在它是一个名称为k3s的简单kubernetes集群 xff0c 而该集群是在kubernetes集群内的 rancher还可以在一个裸的仅具有dock
Arch安装TIM并解决无法输入中文的常见问题

花了两个小时的时间解决linux tim无法输入中文的问题 xff0c 最后直接重装系统对比前后配置解决问题我觉得这种事情应该是十分钟就能搞定的 xff0c 突然想起高中政治老师之前说过的一个问题一个人的汽车坏了 xff0c 他去修车
Arch使用vs code编译调试C/C++

Arch使用vs code编译调试C C 43 43 Windows平台下无脑下一步编译器就安装好了 xff0c 转到linux平台下基本没有无脑下一步这种操作 xff0c 这个时候就需要手动配置相关程序IDE 43 GCC xff0c 去
vim使用coc 补全代码

coc项目地址 https github com neoclide coc nvim coc安装使用Vim Plugin安装coc vim 在vimrc中添加插件 34 Use release branch recommend 推荐使用
VScode配置task和launch支持C++11

title VScode配置task和launch date 2022 12 12 20 57 26 cover categories VisualCode tags debug VScode配置task和launch支持C 43 43 1
基于Hi3861芯片的鸿蒙开发（一）

一硬件设备 1 润和公司的大师兄开发板 xff08 Hi3861 海思芯片 xff09 20220801 某宝购买 2 通过usb线 xff08 type c 连接win11 电脑二控制面板打开设备管理器查看到连接的是 com
基于Hi3861芯片的鸿蒙开发（二烧录）

我要烧录的是Py4OH v1 1 0 Beta Hi3861 bin 准备工作 xff1a 1 xff09 下载CH340芯片相关驱动点击下面地址 xff0c 直接下载windows版 https www wch cn downloads
企业选择私有云服务三大要素

云服务的出现改变了人们的生活 xff0c 国内的私有云发展也呈现出服务化平台化等新的趋势 xff0c 面对越来越丰富的私有云服务企业选择私有云服务的要素有三个 xff1a 性价比便捷度与安全性 xff0c 其中安全又是企业选择私有云服务
Matlab一个利用神经网络拟合函数的例子

代码 xff1a t 61 span class hljs number 0 span span class hljs number 3 9 span span class hljs number 4 1 span span class h
设置开机自动运行vncserver

a 在 etc rc d rc local文件中加入下面行 etc init d vncserver start b 编辑 etc sysconfig vncservers VNCSERVERS 61 34 1 root 34 VNCSER
Java面试题附答案（面试必会）

Java面试题大全 JavaSE1 JDK和JRE区别2 八大数据类型3 equals和 61 61 区别4 String类的常用方法5 String不可变原理6 线程池三大方法 xff0c 七大参数 xff0c 四种拒绝策略7 Array
postgresql|数据库|批量执行SQL脚本文件的shell脚本

前言 xff1a 对于数据库的维护而言 xff0c 肯定是有SQL脚本的执行 xff0c 例如 xff0c 某个项目需要更新 xff0c 那么 xff0c 可能会有很多的SQL脚本需要执行 xff0c SQL脚本可能会包含有建表 xff0c
记录hadoop的常用命令

本文记录了 hadoop 的常用命令 1 hadoop fs 这是 hadoop 输出的文件管理的命令 xff0c 比较常用 xff0c 具体参数有 xff1a 1 01 cat hadoop fs cat fileurl 将路径下的文件内
为什么Nicira要抛弃OpenFlow硬件控制？

http net zdnet com cn network security zone 2013 0105 2138778 shtml 摘要 xff1a 5年前 xff0c 当Nicira创始人Martin Casado在斯坦福大学攻读博士
《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

MUTAN Multimodal Tucker Fusion for Visual Question Answering 阅读笔记一研究背景 Bilinear models在视觉问答 xff08 VQA xff09 任务中进行信息融合提

热门标签