《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

2023-05-16

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

一、研究背景

Bilinear models在视觉问答(VQA)任务中进行信息融合提供了一个吸引人的框架。 它们有助于学习question meaning 和 visual concepts in the image之间的高层次关系,但它们存在高维度问题。 论文引入MUTAN,a multimodal tensor-based Tucker decomposition ,有效地参数化visual和text表示之间的双线性相互作用。 除了Tucker framework之外,还设计了一种基于矩阵的低阶分解来明确约束交互等级。 使用MUTAN,可以控制合并方案的复杂性,同时保持良好的可解释融合关系。

二、文章贡献

1、VQA的新融合方案依赖于基于Tucker张量的分解,包括分解为三个矩阵和核心张量。 论文中证明了MUTAN融合方案推广了最新的双线性模型,即MCB [5]和MLB [8],同时具有更强的表现力;
2、Additional structured sparsity 约束核心张量以进一步控制模型参数的数量。 这在训练期间充当正则化器并防止过度拟合,使我们能够更灵活地调整输入/输出预测;
3、在最常使用的数据集VQA上取得很好的结果, 文中还表明MUTAN在相同的设置的条件下,结果优于MCB 和MLB ,并且当与MLB结合时可以进一步提高性能,验证两种方法之间的互补可能性。

三、实验模型

这里写图片描述
text特征提取: fully convolutional neural network(ResNet-152) 提取图像特征,得到v;
**image特征提取:**a GRU recurrent network 提取文本特征,得到q;
Fusion and Bilinear models
这里写图片描述
在MUTAN中,我们使用Tucker decomposition对全张量T进行分解。 通过构造第二张量T c来完成我们的分解(见图2中的灰色框),以保持输入/输出维度的灵活性,同时保持参数的数量易处理。

Tucker decomposition

这里写图片描述
这里写图片描述

Multimodal Tucker Fusion

这里写图片描述
这里写图片描述
这里写图片描述

Tensor sparsity

这里写图片描述
这里写图片描述
这里写图片描述

四、实验结论

我们的模型将Tucker decomposition与low-rank matrix constraint相结合。 它旨在控制full bilinear交互的复杂性。 MUTAN将交互张量分解为可解释的元素,并允许轻松控制模型的表达性。 我们还展示了Tucker分解框架如何概括最具竞争力的VQA架构。 MUTAN在最新的VQA数据集上进行评估,达到了最新技术水平。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记 的相关文章

  • DATA FUSION CONTEST 2019 and 1st Solution

    比赛信息 xff1a 链接 The Contest Goals and Organisation The 2019 Data Fusion Contest organized by the Image Analysis and Data F
  • 【PyCharm】Couldn‘t refresh skeletons for remote interpreter: Can‘t get remote credentials for server

    错误描述 连接远程服务器的pycharm崩溃后 xff0c 程序无法调试 xff0c 出现错误 xff1a Couldn 39 t refresh skeletons for remote interpreter Can 39 t get
  • 【旋转框目标检测】2201_The KFIoU Loss For Rotated Object Detection

    paper with code paper code Jittor Code https github com Jittor JDet PyTorch Code https github com open mmlab mmrotate Te
  • VINS - Fusion GPS/VIO 融合 二、数据融合

    https zhuanlan zhihu com p 75492883 一 简介 源代码 xff1a VINS Fusion 数据集 xff1a KITTI 数据 程序入口 xff1a globalOptNode cpp 二 程序解读 2
  • vins-fusion代码解读[二] 惯性视觉里程结果与GPS松耦合

    感谢 slam萌新 xff0c 本篇博客部分参考 xff1a https blog csdn net weixin 41843971 article details 86748719 欢迎讨论 惯性视觉里程结果与GPS松耦合 xff1a g
  • navicat for mysql自增_mysql,navicat怎么设置主键自增

    Navicat是应用比较多的mysql的视图管理工具 下面记录下Navicat如何设置主键自增的操作 1 找到需要操作的表右键找到设计表 2 找到对应的字段 改为int型 在下面会出现自动递增的勾选 xff0c 勾上即可 注意 xff0c
  • Ubuntu20.04跑VINS-fusion

    Ubuntu20 04跑VINS Fusion 使用docker 由于工程较大 xff0c 依赖较多 xff0c 环境配置十分繁琐 xff0c 故使用docker环境来运行VINS Fusion Docker 可以让开发者打包他们的应用以及
  • Mac上vmware fusion装的ubuntu不能与主机复制粘贴的问题

    解决方法一 xff1a 安装vmware tools 依次点击 xff1a 虚拟机 gt 安装vmware tools 会在ubuntu桌面上出现vmware tools xff0c 双击打开 解压tar gz包 xff0c 执行解压命令t
  • TX2上布置vins_fusion_gpu指南

    1 参考链接 如果初次安装 xff0c 新的TX2环境 xff0c 请参考文档 https github com arjunskumar vins fusion gpu tx2 nano 2 问题记录 1 xff0c 自己的环境情况 我的环
  • Arduino for ESP32-----ESP-NOW介绍及使用

    ESP NOW ESP NOW介绍ESP NOW支持以下特性ESP NOW技术也存在以下局限性获取ESP32的MAC地址ESP NOW单向通信 One way communication ESP32单板间的双向通信一对多通信 xff08 一
  • 学习ROS-Academy-for-Beginners-noetic,修改记录

    一 编译安装ROS Academy for Beginners noetic 可以参考我之前的博客ROS Academy for Beginers noetic安装教程 之后可以看到里面提供了很多例程 xff0c 包括 软件包 内容 rob
  • Python语法:... for ... in ... if ...

    Python中 for in if 语句是一种简洁的构建List的方法 从for给定的List中选择出满足if条件的元素组成新的List 其中if是可以省略的 下面举几个简单的例子进行说明 for in for in 语句 实例如下 1 a
  • Java 控制结构练习题

    练习1 某人有100 000元 每经过一次路口 需要交费 规则如下 1 当现金 gt 50000时 每次交5 2 当现金 lt 50000时 每次交1000 编程计算该人可以经过多少次路口 要求 使用while break方式完成 publ
  • 教妹学Java(十五):for循环详解

    你好呀 我是沉默王二 一枚颜值与才华俱在的程序员 本篇教程通过我和三妹对话的形式来谈一谈 for while do while 循环之间的差别 以及重点介绍一下 for 循环 while do while 会在接下来的教程中单独介绍 教妹学
  • 第二节 分支和循环语句

    第二节 分支和循环语句 目录 一 什么是语句 二 分支语句 选择结构 三 循环语句 本章重点 分支语句 if switch 循环语句 while for do while goto语句 一 什么是语句 C语句可分为以下五类 表达式语句 函数
  • matlab for循环坑

    matlab 用 for 嵌套循环遍历数组时 可能有 bug matlab octave 环境 linux Matlab R2018a 1 windows GNU Octave version 5 2 0 以 for x vector 的形
  • CLR 何时尝试加载引用的程序集?

    我想编写一个小型安装程序应用程序来安装网站并创建 IIS 虚拟目录 该应用程序应在 Windows XP Server 2003 IIS 6 以及 Vista 2008 IIS 7 上运行 问题是 对于 IIS 6 我们通过调用 WMI M
  • 如何解决:自定义 MSBuild 任务需要在 AppBase 外部进行组装

    我有一个自定义任务 想要在构建 C 项目时执行 此任务位于 MyTask dll 中 它引用另一个程序集 MyCommon DLL 问题是 MyCommon dll 相对于 MyTask dll 位于 Common MyCommon dll
  • fusion 能看穿新型包装吗?

    Given newtype MyVec MyVec unVec Data Vector deriving Functor etc 这将创建 类似于 instance Functor MyVec where fmap f MyVec Data
  • Java 流惰性 vs 融合 vs 短路

    我试图对 Java 流 API 中惰性求值的应用形成一个简洁而连贯的理解 目前我的理解是这样的 元素仅在需要时才被消耗 即流是惰性的 并且中间操作是惰性的 例如过滤器 仅在需要时进行过滤 中间操作可以融合在一起 如果它们是无状态的 短路操作

随机推荐

  • Ubuntu16.04 安装,更新与卸载Docker CE

    Ubuntu16 04 安装 xff0c 更新与卸载Docker CE 污污老师 关注 2017 11 14 23 40 字数 1019 阅读 3079评论 0喜欢 1 Docker CE 17 09 操作系统要求 xff1a 一个64位的
  • 零基础学习OpenGL(八)--立方体贴图、天空盒、环境映射

    立方体贴图 将多个纹理组合起来映射到一张纹理上的一种纹理类型 xff1a 立方体贴图 Cube Map 立方体贴图 xff1a 一个包含了6个2D纹理的纹理 xff0c 每个2D纹理都组成了立方体的一个面 xff1a 一个有纹理的立方体 之
  • Centos7下VNC离线安装(个人纪录)

    Centos7下VNC离线安装 个人纪录 1 官网下载rpm包 下载地址 2 执行安装命令 xff1a rpm Uvh tigervnc server 1 8 0 17 el7 x86 64 rpm 3 检查安装情况 xff1a rpm q
  • thinclient_drives

    ubuntu上安装xrdp搭建远程桌面 xff0c 后面远程桌面是可以了 xff0c 但是用户目录下生出了一个thinclient drives文件夹 xff0c 无论是不是root都不能删除 xff0c 如果你有强迫症 xff0c 你就感
  • 解决虚拟机下的ubuntu不能上网的问题

    解决虚拟机下的ubuntu不能上网的问题 2017年09月25日 19 31 39 ray7777777777 阅读数 xff1a 3676 1 打开虚拟机VM 2 右键ubuntu 设置 网络适配器 选中NAT模式 xff1a 用于共享主
  • 云原生|kubernetes|rancher-2.6.4安装部署简明手册

    前言 rancher是一个比较特殊的开源的kubernetes管理工具 xff0c 特殊在它是一个名称为k3s的简单kubernetes集群 xff0c 而该集群是在kubernetes集群内的 rancher还可以在一个裸的仅具有dock
  • Arch安装TIM并解决无法输入中文的常见问题

    花了两个小时的时间解决linux tim无法输入中文的问题 xff0c 最后直接重装系统对比前后配置解决问题 我觉得这种事情应该是十分钟就能搞定的 xff0c 突然想起高中政治老师之前说过的一个问题 一个人的汽车坏了 xff0c 他去修车
  • Arch使用vs code编译调试C/C++

    Arch使用vs code编译调试C C 43 43 Windows平台下无脑下一步编译器就安装好了 xff0c 转到linux平台下基本没有无脑下一步这种操作 xff0c 这个时候就需要手动配置相关程序IDE 43 GCC xff0c 去
  • vim使用coc 补全代码

    coc项目地址 https github com neoclide coc nvim coc安装 使用Vim Plugin安装coc vim 在vimrc中添加插件 34 Use release branch recommend 推荐使用
  • VScode配置task和launch支持C++11

    title VScode配置task和launch date 2022 12 12 20 57 26 cover categories VisualCode tags debug VScode配置task和launch支持C 43 43 1
  • 基于Hi3861芯片的鸿蒙开发(一)

    一 硬件设备 1 润和公司的 大师兄开发板 xff08 Hi3861 海思芯片 xff09 20220801 某宝购买 2 通过usb线 xff08 type c 连接win11 电脑 二 控制面板 打开 设备管理器 查看到连接的是 com
  • 基于Hi3861芯片的鸿蒙开发(二烧录)

    我要烧录的是Py4OH v1 1 0 Beta Hi3861 bin 准备工作 xff1a 1 xff09 下载CH340芯片相关驱动 点击下面地址 xff0c 直接下载windows版 https www wch cn downloads
  • 企业选择私有云服务三大要素

    云服务的出现改变了人们的生活 xff0c 国内的私有云发展也呈现出服务化 平台化等新的趋势 xff0c 面对越来越丰富的私有云服务企业选择私有云服务的要素有三个 xff1a 性价比 便捷度与安全性 xff0c 其中安全又是企业选择私有云服务
  • Matlab一个利用神经网络拟合函数的例子

    代码 xff1a t 61 span class hljs number 0 span span class hljs number 3 9 span span class hljs number 4 1 span span class h
  • 设置开机自动运行vncserver

    a 在 etc rc d rc local文件中加入下面行 etc init d vncserver start b 编辑 etc sysconfig vncservers VNCSERVERS 61 34 1 root 34 VNCSER
  • Java面试题附答案(面试必会)

    Java面试题大全 JavaSE1 JDK和JRE区别2 八大数据类型3 equals和 61 61 区别4 String类的常用方法5 String不可变原理6 线程池三大方法 xff0c 七大参数 xff0c 四种拒绝策略7 Array
  • postgresql|数据库|批量执行SQL脚本文件的shell脚本

    前言 xff1a 对于数据库的维护而言 xff0c 肯定是有SQL脚本的执行 xff0c 例如 xff0c 某个项目需要更新 xff0c 那么 xff0c 可能会有很多的SQL脚本需要执行 xff0c SQL脚本可能会包含有建表 xff0c
  • 记录hadoop的常用命令

    本文记录了 hadoop 的常用命令 1 hadoop fs 这是 hadoop 输出的文件管理的命令 xff0c 比较常用 xff0c 具体参数有 xff1a 1 01 cat hadoop fs cat fileurl 将路径下的文件内
  • 为什么Nicira要抛弃OpenFlow硬件控制?

    http net zdnet com cn network security zone 2013 0105 2138778 shtml 摘要 xff1a 5年前 xff0c 当Nicira创始人Martin Casado在斯坦福大学攻读博士
  • 《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

    MUTAN Multimodal Tucker Fusion for Visual Question Answering 阅读笔记 一 研究背景 Bilinear models在视觉问答 xff08 VQA xff09 任务中进行信息融合提