面向文本和视觉线索联合推断的多模态上下文推理方法

2023-11-15

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

报告题目

面向文本和视觉线索联合推断的多模态上下文推理方法

内容简介

联合文本和视觉线索条件推理任务是一项复杂多模态推理任务，其中，文本线索提供与视觉内容互补的先验假设或者外部知识，对推断正确选项至关重要。虽然先前使用预训练视觉语言模型（VLM）的方法取得了令人印象深刻的表现，但这些方法存在多模态上下文推理能力的不足，尤其是在文本模态信息上，上下文推断能力较弱。为了解决这个问题，我们提出了一种名为ModCR的多模态上下文推理方法。与通过跨模态语义对齐进行推理的VLMs相比，ModCR将给定的文本抽象语义和客观图像信息视为前置上下文信息，输入到语言模型中进行上下文推理。不同于近期在自然语言处理中使用的视觉辅助语言模型 (vision-assistant language model )，ModCR通过在预训练语言模型中引入图像文本间对齐前缀 (alignment prefix embedding)，成功融合了语言和视觉之间的多层次语义对齐信息。这种情形下的语言模型十分适合于联合文本和视觉线索的多模态推理场景。我们在两个相应数据集上进行了大量实验，实验结果显示与先前的模型相比，推理性能显著提高。

论文地址：https://arxiv.org/abs/2305.04530

代码地址：https://github.com/YunxinLi/Multimodal-Context-Reasoning

背景

跨模态推理任务是自然语言处理和计算机视觉两个领域的一个研究热点，而包括VQA，Visual Entailment在内的多数跨模态推理任务都侧重主要依赖图像信息的视觉推理场景。在这些任务中，给定的文本都与图像高度相关而缺乏外部补充信息。而在另一种更加符合实际的跨模态推理场景中，文本模态通常提供了对源图像的互补信息或先验假设，如下图中的前提所示。我们工作主要关注联合文本和视觉线索的条件推理任务，具体的任务形式则是根据给定的文本前提和图像从候选集中选择正确的选项。

先前的方法通常将文本前提、图像和候选答案的拼接序列输入到VLM中，并使用特定任务的分类器来根据从VLM获得的联合表示来推断结果。虽然这些任务在主要基于视觉线索的推理任务中表现良好，但存在一个主要的缺点：推理过程没有充分利用给定前提文本的抽象语义信息来进行上下文推理。这是因为VLM在预训练过程中主要将不同的模态表示映射到一个统一的空间中，而忽视了基于给定的语言和视觉的多模态语义的上下文学习。然而，包括BERT, Roberta在内的预训练语言模型（PLM）具有强大的上下文学习能力，能够根据给定的抽象文本信息推断下一步的意图。

我们提出了一个名为ModCR的简单有效的多模态上下文推理方法，充分发挥了VLM和PLM的优势。具体而言，ModCR使用一个配备视觉映射网络的预训练视觉编码器来获取图像表示并将其转换为可学习的视觉前缀。视觉前缀和文本前提被视为两种类型的前文信息，输入到语言模型中以推理正确答案。考虑到在语言模型中视觉前缀和文本之间不同模态信息表示语义的差距，我们提出利用多粒度视觉语言语义对齐器来获取图像和文本之间的多视图对齐表示。随后，设计了一个对齐映射网络，以捕捉关键的对齐信息并将其转换为可学习的跨模态对齐前缀。最后，我们将这两个前缀、前提和答案馈送到语言模型中，并以指令模板槽位填充的方法执行跨模态推理。

方法介绍

ModCR模型中，我们首先使用视觉编码器获得图像表示，然后通过映射网络将其投影到视觉前缀中以提供客观环境信息。考虑到语言模型执行上下文学习时，前缀与文本之间的语义差距，我们设计了一个基于多粒度视觉语言语义对齐器的映射网络。最后，我们通过指令学习的方式将两种类型的前缀、前提文本和答案输入到语言模型当中。

基础模型. 我们使用了预训练的单流双向编码器Oscar作为视觉编码器和多粒度视觉语言语义对齐器的基础框架。此时，图像特征首先由Faster-RCNN提取，然后输入到视觉编码器和对齐器当中。原始的Oscar模型主要实现文本和图像之间的Token级别对齐。同时我们在Flickr30k Entities上预训练了基于Oscar的块感知编码器，用于实现文本和图像之间的短语（Phrase）级别对齐。

视觉映射网络VMN. 对于视觉映射网络，我们采用了一个带有ReLU激活函数的两层感知器。它可以在大规模图像文本对上进行预训练，进而将视觉特征投影到与语言模型中的词嵌入具有相同空间分布的视觉前缀中。

对齐映射网络AWN. 对于对齐映射网络，我们首先应用一个两层的Transformer来捕获和，其中和分别表示答案文本中第i个token的token级别和phrase级别的对齐表示。第一层的计算公式如下

其中和为可学习参数，表示交叉注意力计算。在进行相同的两层计算后，我们得到了关键的对齐表示之后，我们通过与视觉映射网络中类似的计算过程将其投影到跨模态对齐前缀当中。

多模态上下文推理器. 在获取了两种类型的前缀之后，我们将其输入多模态上下文推理器中进行跨模态推理，我们选用了预训练的语言模型RoBERTa作为上下文推理器，同时利用指令学习的方法来进行上下文编码信息的融合。具体而言，我们将视觉前缀、对齐前缀、前提和答案候选项填充到预定义的指令模板中，模板如图中所示。通过这种方式，我们可以利用预训练语言模型的上下文学习能力来解决多模态推理问题。我们通过在RoBERTA的顶层cls隐藏层输出上应用具有ReLU函数的两层感知器来获取每个答案候选项的推断结果。

实验结果

如下作图所示，模型在PMR数据集上的实验结果可表明ModCR相比其他的基准模型表现出更优异的性能。而如下右图则是ModCR模型在PMR数据集上的更加细粒度的评估，可以发现ModCR模型在利用抽象语义进行推理能力上的优异。

下图是ModCR模型在VCR数据集上的实验结果，ModCR模型相比其他基准模型在性能上同样优异。该实验结果表明，在利用外部知识方面，ModCR比直接将知识拼接到语言模型输入序列中，效果要更好一些。

同时，为了验证ModCR的有效性，我们选用PMR数据集进行了消融实验。从下左图中，我们通过比较ModCR LA=0和ModCR LA=1版本的实验结果，我们可以证明对齐映射网络的有效性；通过对比选用不同长度的视觉前缀和对齐前缀的ModCR模型，我们可以发现当两个前缀长度均为5时，ModCR模型性能最好。而下右图中，我们对比了不同训练策略对ModCR模型的影响。对比”冻结VLM”和”微调VLM”在两个数据集上的实验结果，我们可以发现微调VLM能给ModCR模型带来更好的性能。

下图中我们展示了两个样例来展示模型的性能。从图中可以看出，虽然预训练的VLM能够判断候选答案是否满足图像内容，但它们无法有效地利用前提文本信息进行推理。而ModCR模型能够利用双模态的语义信息来推理出正确答案。

结论

在本文中，我们提出了一种名为ModCR的多模态上下文推理方法，用于联合视觉和文本线索的条件推理场景。ModCR将给定的图像和文本视为两种不同的前缀，并且通过指令学习的方法输入到语言模型当中以进行多模态推理。两个数据集上的实验结果显示了ModCR的有效性。

未来，我们将继续探索两个研究方向：1.如何提高预训练视觉语言模型的上下文学习能力，多模态大模型应具备的能力。2.探索复杂视觉和文本线索的条件推理，其中包含多个模态的多个线索。

所提出的ModCR扔有一些局限性，如下：

1）当前方法在文本线索和图像的跨模态场景中实现了强大的上下文推理性能，但在包含多个文本和视觉线索的场景中的上下文推理能力仍然需要进一步探讨。

2）从实验结果中，我们观察到视觉前缀的长度极大地影响了融入视觉信息的语言模型的稳定性。因此，我们仍需要探索用于自然语言处理和多模态场景的有效且稳定的视觉辅助语言模型。

3）我们还希望这项工作能够激发更多关于改进预训练视觉语言模型的长上下文推理能力的研究，即迈向大视觉语言模型。

提

醒

点击“阅读原文”跳转至00:41:05

可以查看回放哦！

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1300多位海内外讲者，举办了逾600场活动，超600万人次观看。

我知道你

在看

哦

点击 阅读原文 查看回放！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

面向文本和视觉线索联合推断的多模态上下文推理方法的相关文章

Windows环境下Redis安装与配置的两种方式

安装和配置Redis Redis的安装有两种安装形式一种是安装包式另一种是压缩包注意 windows没有32位的所以32位机器的朋友考虑换一下机器一安装包式 1 windows环境下的redis需要去github上获取 http
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

CSWin Transformer A General Vision Transformer Backbone with Cross Shaped Windows 一引言二方法实现一 CSWin Transformer 二体系结构
检测SOTA！DEYO：YOLOv5+DETR成就地表最强目标检测器

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心目标检测技术交流群后台回复 2D检测综述获取鱼眼检测实时检测通用2D检测等近5年内所有综述目标检测是计算机视觉中的一个重要课题后处理
Python中的矩阵操作

Numpy 通过观察Python的自有数据类型我们可以发现Python原生并不提供多维数组的操作那么为了处理矩阵就需要使用第三方提供的相关的包 NumPy 是一个非常优秀的提供矩阵操作的包 NumPy的主要目标就是提供多维数组从而
html页面跳转的方法

html页面跳转的方法 1 html中使用meta中跳转通过meta可以设置跳转时间和页面 2 a标签直接跳转 a href http baidu com 百度一下 a 3 通过javascript中实现跳转直接跳转window loc
python之微信公众号内容爬取一(亲测可用)

import requests from lxml import etree headers User Agent Mozilla 5 0 Windows NT 10 0 Win64 x64 AppleWebKit 537 36 KHTML
微信小程序实现数值监听（页面和组件属性）

简介目前文章主要介绍对页面属性值的监听以及组件属性值的监听需要异页面监听数据请跳转至另一个文章介绍为什么需要监听属性值当需要通过一个属性变化时候需要计算相应的方法等 pc网站经常需要监听属性那么小程序应该怎么去实现实现方法
elementui的表格排序的组件之问题---条件改变样式消失

这两天写了一个需求就是当我改变时间的时候排序功能消失这我就想不是很简单吗但是是我太单纯了这个是一个后台肯定会用到element的组件然后果不其然用的就是element里面的表格排序组件 elementUI table 首先熟悉
移动端适配方案

总共的方法 1 通过媒体查询的方式 2 以天猫首页为代表的 flex 弹性布局 3 以淘宝首页为代表的 rem viewport缩放 4 rem 方式 1 基本知识点物理像素硬件上屏幕上横向和纵向有多少个像素点逻辑像素dp 程序认为屏
KVM详解-WEB管理界面及安装win2016

文章目录 KVM的简介 KVM简介 2 关于virtual machine manager的介绍二安装及环境的部署 1 安装时系统要求 3 安装KVM虚拟化软件 kvm部署 kvm安装启动服务验证安装结果测试并验证安装结果查看网
【华为OD统一考试A卷

华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷和OD统一考试 B卷你收到的链接上面会标注A卷还是B卷请注意根据反馈目前大部分收到的都是
手机大厂必备测试技能-CTS 兼容测试

01 何为CTS 相信小伙伴们都有用过各种款式的Android手机如小米魅族华为 oppo vivo 虽然他们的页面长的都不太一样比如小米的长这样魅族的 oppo的还有垂死挣扎的锤子但是这些手机其实都是搭载的Android系统
linux运维笔记-初级部分内容

本文出自老男孩linux运维博客请务必保留此出处http oldboy blog 51cto com 2561410 476884 运维初级内容参考列表一学习方法篇老男孩Linux实战运维笔记学习方法系列 1 学好运维四要素
微信小程序订阅消息

HTTPS 调用请求地址 POST https api weixin qq com cgi bin message subscribe send access token ACCESS TOKEN 消息订阅官方文档 https devel
Java获取当前时间的年月日时分秒方法

相关内容 package com ob import java text ParseException import java text SimpleDateFormat import java util Calendar import j
异地多活paxos实现：Multi-Master-Paxos-3

Background 200行代码实现paxos kv 中介绍了一款非常简洁的分布式kv存储实现它是基于 classic paxos 实现分布式一致性在 paxos的直观解释中我们提到每次写入也就是每个 paxos 实例需要2轮
.net 中间件的使用 Use，Run，Map，MapWhen，UseWhen

net 中间件的使用 Use Run Map MapWhen UseWhen net 提供了几种添加自定义中间件的方法Use Run Map MapWhen UseWhen Use app Use async context next gt
20210208-mmdetection模型转为tensorrt(trt)

1 下载下载对应的的cuda 由于本机装的是10 1 所以下了个cuda 10 0 130 410 48 linux run 2 下载配置tensorrt 我下的是 TensorRT 7 0 0 11 配置如下 export TR PATH
光纤通道速率查看_光纤好坏如何区分，OM1234多模光纤有何区别？

1 OM1 颜色为橙色核心尺寸 62 5um 数据速率 1GB 850nm 距离高达300米应用短程网络局域网 LAN 和专用网络 2 OM2 颜色为橙色核心尺寸 50um 数据速率 1GB 850nm 距离高达600米通常
Linux中用root用户打开vscode

先打开终端切换到root用户 su root 接着输入 sudo code user data dir vscode root

随机推荐

对数器

对数器的作用对数器可以说是验证算法是否正确的一种方式尤其是在笔试的时候用贪心算法写出的程序暂时无法用数学公式严格推导证明只能通过大量的数据集验证算法的正确性而大量的数据集当中要包括各种情况各个方面都要考虑到对我们自己来说有
WDK_学习笔记_区块链+ViT和Swin transformer

文章目录摘要一項目 Hyperledger fabric技术的深入学习 1 1 安装 2 2 0 只记录问题其余按文档操作即可二深度学习 Version Transformer ViT 和Swin Transformer 2 1
【Unity从零开始制作空洞骑士】①制作人物的移动跳跃转向以及初始的动画制作

事情的起因首先我之前在b站的时候突然发现有个大佬说复刻了空洞骑士点进去一看发现很多场景都福源道非常详细当时我除了觉得大佬很强的同时也想自己试一下而且当时对玩家血条设计等都很模糊就想着问up主结果因为制作的时间过了很久了大佬也有
Mock入门

关键参数 name 唯一标识 return value 当被调用时返回的值可为函数 side effct 当存在时 return value不生效返回side effect 导入库 from unittest import mock
用户画像-标签体系

1 前言最近在学习用户画像翻看了彭友会的七十多份资料简单过了一遍赵宏田老师的书最近又看了许多微信公众号里的文章整体感受就是资料太杂内容太乱重复的太多相互间也会有些冲突但大致可以归为两类赵宏田老师的一套另外其它的一
PDF文件复制文字

最近在看电子书时发现有的一些 PDF 文件看起来像是扫描的但能直接复制文字有的则不能查找相关资料后明白了不能复制的pdf文件 01 pdf文件加密了 02 扫描和图形格式做的PDF文件 PDF文件如果加密了对于一些不允许做修改
Android关于AutoService、Javapoet讲解

AutoService会自动在META INF文件夹下生成Processor配置信息文件该文件里就是实现该服务接口的具体实现类而当外部程序装配这个模块的时候就能通过该jar包META INF services 里的配置文件找到具体的实
ChatGPT不能代替人类写作的四个原因

近期留学圈最火的C位当属ChatGPT 作为一款OpenAI开发的语言模型 ChatGPT在文本生成上的优秀表现大大助力了母语非当地语言的留学生们写邮件翻译并理解文本乃至写代码 ChatGPT似乎所向披靡不少同学也产生了这个想法用它
pageHelper分页失效解决方案

前言 pageHelper是一款优秀的Mybatis分页插件在项目中可以非常便利的使用使开发效率得到很大的提升但不支持一对多结果映射的分页查询所以在平时的使用时对于一对多分页会出现分页错误这篇文章主要对pageHelper分页错
activiti学习之服务任务

写在前面对于工作流我们使用最多的是用户任务节点用户任务节点就是给用户来生成任务的需要人来手动的处理而与之对应的还有服务任务节点这种类型的节点需要人手动的参与而是程序来执行即执行某个类的某个方法这个类一般是org activi
Java 实现 MD5 加密算法

1 MD5 加密算法 1 1 MD5 算法介绍 MD5 消息摘要算法英文 MD5 Message Digest Algorithm 一种被广泛使用的密码散列函数可以产生出一个128位 16字节的散列值 hash value 用于确保信
子图匹配算法——VF2算法讲解

讲的很通透了 https zhuanlan zhihu com p 259393192
CSS五款超好用的布局网站

CSS Grid Generator https cssgrid generator netlify app CSS Layout https csslayout io Flexbox Generator https loading io
vtkdicom0.8_vtk9.2_dcmtk3.6.7_qt6.2编译OK

目录 0 结果展示 1 cmake要点 2 编译报错解决 3 参考链接 0 结果展示
吃透Chisel语言.23.Chisel时序电路（三）——Chisel移位寄存器（Shift Register）详解

Chisel时序电路三 Chisel移位寄存器 Shift Register 详解上一篇文章介绍了Chisel计数器以及一些高级用法内容很多学下来肯定收获也会很多除了计数器以外还有一种寄存器的应用十分广泛那就是移位寄存器这一
Linux Test Project(一)

http www vimlinux com lipeng 2014 09 12 ltp Testing Linux one syscall at a time LTP是从SGI开始的后由IBM 思科富士通 SUSE Redhat等组织开
Java多线程下 ThreadLocal 的应用实例

ThreadLocal很容易让人望文生义想当然地认为是一个本地线程其实 ThreadLocal并不是一个 Thread 而是 Thread 的局部变量也许把它命名为 ThreadLocalVariable更容易让人理解一些当使用
jQuery Ajax 初始化方法

ajaxSetup headers Authorization auth token cache false 禁用缓存 dataType json contentType application json contentType appli
《深入理解java虚拟机》笔记

深入理解java虚拟机走进java java不仅仅是一门编程语言还是一个由一系列计算机软件和规范形成的技术体系她有以下优点结构严谨面向对象摆脱硬件平台的限制实现了一次编写到处运行提供了一个相对安全的内存管理和访问机制有一
面向文本和视觉线索联合推断的多模态上下文推理方法

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入报告题目面向文本和视觉线索联合推断的多模态上下文推理方法内容简介联合文本和视觉线索条件推理任务是一项复杂多模态推理任务其中文本线索提供与视觉内容互补的先验假设或者外部知

面向文本和视觉线索联合推断的多模态上下文推理方法

面向文本和视觉线索联合推断的多模态上下文推理方法 的相关文章

随机推荐

热门标签

面向文本和视觉线索联合推断的多模态上下文推理方法的相关文章