面向文本和视觉线索联合推断的多模态上下文推理方法

2023-11-15

点击蓝字

f860288c5722c7f91ef4c93faaaaf70b.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

报告题目

面向文本和视觉线索联合推断的多模态上下文推理方法

内容简介

联合文本和视觉线索条件推理任务是一项复杂多模态推理任务,其中,文本线索提供与视觉内容互补的先验假设或者外部知识,对推断正确选项至关重要。虽然先前使用预训练视觉语言模型(VLM)的方法取得了令人印象深刻的表现,但这些方法存在多模态上下文推理能力的不足,尤其是在文本模态信息上,上下文推断能力较弱。为了解决这个问题,我们提出了一种名为ModCR的多模态上下文推理方法。与通过跨模态语义对齐进行推理的VLMs相比,ModCR将给定的文本抽象语义和客观图像信息视为前置上下文信息,输入到语言模型中进行上下文推理。不同于近期在自然语言处理中使用的视觉辅助语言模型 (vision-assistant language model ),ModCR通过在预训练语言模型中引入图像文本间对齐前缀 (alignment prefix embedding),成功融合了语言和视觉之间的多层次语义对齐信息。这种情形下的语言模型十分适合于联合文本和视觉线索的多模态推理场景。我们在两个相应数据集上进行了大量实验,实验结果显示与先前的模型相比,推理性能显著提高。

论文地址:https://arxiv.org/abs/2305.04530

代码地址:https://github.com/YunxinLi/Multimodal-Context-Reasoning

01

背景

跨模态推理任务是自然语言处理和计算机视觉两个领域的一个研究热点,而包括VQA,Visual Entailment在内的多数跨模态推理任务都侧重主要依赖图像信息的视觉推理场景。在这些任务中,给定的文本都与图像高度相关而缺乏外部补充信息。而在另一种更加符合实际的跨模态推理场景中,文本模态通常提供了对源图像的互补信息或先验假设,如下图中的前提所示。我们工作主要关注联合文本和视觉线索的条件推理任务,具体的任务形式则是根据给定的文本前提和图像从候选集中选择正确的选项。

00b15428ba77c540fea01acb03575b93.png

先前的方法通常将文本前提、图像和候选答案的拼接序列输入到VLM中,并使用特定任务的分类器来根据从VLM获得的联合表示来推断结果。虽然这些任务在主要基于视觉线索的推理任务中表现良好,但存在一个主要的缺点:推理过程没有充分利用给定前提文本的抽象语义信息来进行上下文推理。这是因为VLM在预训练过程中主要将不同的模态表示映射到一个统一的空间中,而忽视了基于给定的语言和视觉的多模态语义的上下文学习。然而,包括BERT, Roberta在内的预训练语言模型(PLM)具有强大的上下文学习能力,能够根据给定的抽象文本信息推断下一步的意图。

我们提出了一个名为ModCR的简单有效的多模态上下文推理方法,充分发挥了VLM和PLM的优势。具体而言,ModCR使用一个配备视觉映射网络的预训练视觉编码器来获取图像表示并将其转换为可学习的视觉前缀。视觉前缀和文本前提被视为两种类型的前文信息,输入到语言模型中以推理正确答案。考虑到在语言模型中视觉前缀和文本之间不同模态信息表示语义的差距,我们提出利用多粒度视觉语言语义对齐器来获取图像和文本之间的多视图对齐表示。随后,设计了一个对齐映射网络,以捕捉关键的对齐信息并将其转换为可学习的跨模态对齐前缀。最后,我们将这两个前缀、前提和答案馈送到语言模型中,并以指令模板槽位填充的方法执行跨模态推理。

02

方法介绍

ModCR模型中,我们首先使用视觉编码器获得图像表示,然后通过映射网络将其投影到视觉前缀中以提供客观环境信息。考虑到语言模型执行上下文学习时,前缀与文本之间的语义差距,我们设计了一个基于多粒度视觉语言语义对齐器的映射网络。最后,我们通过指令学习的方式将两种类型的前缀、前提文本和答案输入到语言模型当中。

b01362bdb56f3f33a1f51983f5c8bbc9.png

基础模型. 我们使用了预训练的单流双向编码器Oscar作为视觉编码器和多粒度视觉语言语义对齐器的基础框架。此时,图像特征首先由Faster-RCNN提取,然后输入到视觉编码器和对齐器当中。原始的Oscar模型主要实现文本和图像之间的Token级别对齐。同时我们在Flickr30k Entities上预训练了基于Oscar的块感知编码器,用于实现文本和图像之间的短语(Phrase)级别对齐。

视觉映射网络VMN. 对于视觉映射网络,我们采用了一个带有ReLU激活函数的两层感知器。它可以在大规模图像文本对上进行预训练,进而将视觉特征投影到与语言模型中的词嵌入具有相同空间分布的视觉前缀中。

对齐映射网络AWN. 对于对齐映射网络,我们首先应用一个两层的Transformer来捕获和,其中和分别表示答案文本中第i个token的token级别和phrase级别的对齐表示。第一层的计算公式如下

7d3426e3467e6bde86cb03f57f62cfe6.png

其中和为可学习参数,表示交叉注意力计算。在进行相同的两层计算后,我们得到了关键的对齐表示之后,我们通过与视觉映射网络中类似的计算过程将其投影到跨模态对齐前缀当中。

多模态上下文推理器. 在获取了两种类型的前缀之后,我们将其输入多模态上下文推理器中进行跨模态推理,我们选用了预训练的语言模型RoBERTa作为上下文推理器,同时利用指令学习的方法来进行上下文编码信息的融合。具体而言,我们将视觉前缀、对齐前缀、前提和答案候选项填充到预定义的指令模板中,模板如图中所示。通过这种方式,我们可以利用预训练语言模型的上下文学习能力来解决多模态推理问题。我们通过在RoBERTA的顶层cls隐藏层输出上应用具有ReLU函数的两层感知器来获取每个答案候选项的推断结果。

330d18cdfe004807d4b6f54244a4a33b.png

03

实验结果

如下作图所示,模型在PMR数据集上的实验结果可表明ModCR相比其他的基准模型表现出更优异的性能。而如下右图则是ModCR模型在PMR数据集上的更加细粒度的评估,可以发现ModCR模型在利用抽象语义进行推理能力上的优异。

ff48dfb1ad9c08f5e0eca457f9d145e4.png

321c39506b67130e335d009a57727eb6.png

下图是ModCR模型在VCR数据集上的实验结果,ModCR模型相比其他基准模型在性能上同样优异。该实验结果表明,在利用外部知识方面,ModCR比直接将知识拼接到语言模型输入序列中,效果要更好一些。

200e2a2bebd3aee137362e9e62b1f62b.png

同时,为了验证ModCR的有效性,我们选用PMR数据集进行了消融实验。从下左图中,我们通过比较ModCR LA=0和ModCR LA=1版本的实验结果,我们可以证明对齐映射网络的有效性;通过对比选用不同长度的视觉前缀和对齐前缀的ModCR模型,我们可以发现当两个前缀长度均为5时,ModCR模型性能最好。而下右图中,我们对比了不同训练策略对ModCR模型的影响。对比”冻结VLM”和”微调VLM”在两个数据集上的实验结果,我们可以发现微调VLM能给ModCR模型带来更好的性能。

b9b86fba57c665940982bedbc2c6ed27.png

c328497c41c9021e0708f4a5b384a7ff.png

下图中我们展示了两个样例来展示模型的性能。从图中可以看出,虽然预训练的VLM能够判断候选答案是否满足图像内容,但它们无法有效地利用前提文本信息进行推理。而ModCR模型能够利用双模态的语义信息来推理出正确答案。

bfb92ae3b7cb016d35b556331cf22b5d.png

04

结论

在本文中,我们提出了一种名为ModCR的多模态上下文推理方法,用于联合视觉和文本线索的条件推理场景。ModCR将给定的图像和文本视为两种不同的前缀,并且通过指令学习的方法输入到语言模型当中以进行多模态推理。两个数据集上的实验结果显示了ModCR的有效性。

未来,我们将继续探索两个研究方向:1.如何提高预训练视觉语言模型的上下文学习能力,多模态大模型应具备的能力。2.探索复杂视觉和文本线索的条件推理,其中包含多个模态的多个线索。

所提出的ModCR扔有一些局限性,如下:

1) 当前方法在文本线索和图像的跨模态场景中实现了强大的上下文推理性能,但在包含多个文本和视觉线索的场景中的上下文推理能力仍然需要进一步探讨。

2) 从实验结果中,我们观察到视觉前缀的长度极大地影响了融入视觉信息的语言模型的稳定性。因此,我们仍需要探索用于自然语言处理和多模态场景的有效且稳定的视觉辅助语言模型。

3) 我们还希望这项工作能够激发更多关于改进预训练视觉语言模型的长上下文推理能力的研究,即迈向大视觉语言模型。

点击“阅读原文”跳转至00:41:05

可以查看回放哦!

往期精彩文章推荐

ded2dc45c5c5aa96623f6fd2bf512fb4.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1300多位海内外讲者,举办了逾600场活动,超600万人次观看。

1a9027a3954d525e24510429087d9111.png

我知道你

在看

~

d90bca1242ff2def9b90ae6f33f91af2.gif

点击 阅读原文 查看回放!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

面向文本和视觉线索联合推断的多模态上下文推理方法 的相关文章

  • Windows环境下Redis安装与配置的两种方式

    安装和配置Redis Redis的安装有两种安装形式 一种是安装包式 另一种是压缩包 注意 windows没有32位的 所以32位机器的朋友考虑换一下机器 一 安装包式 1 windows环境下的redis需要去github上获取 http
  • CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

    CSWin Transformer A General Vision Transformer Backbone with Cross Shaped Windows 一 引言 二 方法实现 一 CSWin Transformer 二 体系结构
  • 检测SOTA!DEYO:YOLOv5+DETR成就地表最强目标检测器

    点击下方卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 目标检测 技术交流群 后台回复 2D检测综述 获取鱼眼检测 实时检测 通用2D检测等近5年内所有综述 目标检测是计算机视觉中的一个重要课题 后处理
  • Python中的矩阵操作

    Numpy 通过观察Python的自有数据类型 我们可以发现Python原生并不提供多维数组的操作 那么为了处理矩阵 就需要使用第三方提供的相关的包 NumPy 是一个非常优秀的提供矩阵操作的包 NumPy的主要目标 就是提供多维数组 从而
  • html页面跳转的方法

    html页面跳转的方法 1 html中使用meta中跳转 通过meta可以设置跳转时间和页面 2 a标签直接跳转 a href http baidu com 百度一下 a 3 通过javascript中实现跳转 直接跳转window loc
  • python之微信公众号内容爬取一(亲测可用)

    import requests from lxml import etree headers User Agent Mozilla 5 0 Windows NT 10 0 Win64 x64 AppleWebKit 537 36 KHTML
  • 微信小程序实现数值监听(页面和组件属性)

    简介 目前文章主要介绍对页面属性值的监听以及组件属性值的监听 需要异页面监听数据 请跳转至另一个文章介绍 为什么需要监听属性值 当需要通过一个属性变化时候 需要计算相应的方法等 pc网站经常需要监听属性 那么小程序应该怎么去实现 实现方法
  • elementui的表格排序的组件之问题---条件改变样式消失

    这两天写了一个需求 就是当我改变时间的时候 排序功能消失 这我就想不是很简单吗 但是是我太单纯了 这个是一个后台 肯定会用到element的组件 然后果不其然用的就是element里面的表格排序组件 elementUI table 首先熟悉
  • 移动端适配方案

    总共的方法 1 通过媒体查询的方式 2 以天猫首页为代表的 flex 弹性布局 3 以淘宝首页为代表的 rem viewport缩放 4 rem 方式 1 基本知识点 物理像素 硬件上屏幕上横向和纵向有多少个像素点 逻辑像素dp 程序认为屏
  • KVM详解-WEB管理界面及安装win2016

    文章目录 KVM的简介 KVM简介 2 关于virtual machine manager的介绍 二 安装及环境的部署 1 安装时系统要求 3 安装KVM虚拟化软件 kvm部署 kvm安装 启动服务 验证安装结果 测试并验证安装结果 查看网
  • 【华为OD统一考试A卷

    华为OD统一考试A卷 B卷 新题库说明 2023年5月份 华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷 和OD统一考试 B卷 你收到的链接上面会标注A卷还是B卷 请注意 根据反馈 目前大部分收到的都是
  • 手机大厂必备测试技能-CTS 兼容测试

    01 何为CTS 相信小伙伴们都有用过各种款式的Android手机 如小米 魅族 华为 oppo vivo 虽然他们的页面长的都不太一样 比如小米的长这样 魅族的 oppo的 还有垂死挣扎的锤子 但是这些手机其实都是搭载的Android系统
  • linux运维笔记-初级部分内容

    本文出自 老男孩linux运维 博客 请务必保留此出处http oldboy blog 51cto com 2561410 476884 运维初级内容参考列表 一 学习方法篇 老男孩Linux实战运维笔记 学习方法系列 1 学好运维四要素
  • 微信小程序订阅消息

    HTTPS 调用 请求地址 POST https api weixin qq com cgi bin message subscribe send access token ACCESS TOKEN 消息订阅官方文档 https devel
  • Java获取当前时间的年月日时分秒方法

    相关内容 package com ob import java text ParseException import java text SimpleDateFormat import java util Calendar import j
  • 异地多活paxos实现:Multi-Master-Paxos-3

    Background 200行代码实现paxos kv 中介绍了一款非常简洁的分布式kv存储实现 它是基于 classic paxos 实现分布式一致性 在 paxos的直观解释 中我们提到 每次写入 也就是每个 paxos 实例需要2轮
  • .net 中间件的使用 Use,Run,Map,MapWhen,UseWhen

    net 中间件的使用 Use Run Map MapWhen UseWhen net 提供了几种添加自定义中间件的方法Use Run Map MapWhen UseWhen Use app Use async context next gt
  • 20210208-mmdetection模型转为tensorrt(trt)

    1 下载下载对应的的cuda 由于本机装的是10 1 所以下了个cuda 10 0 130 410 48 linux run 2 下载配置tensorrt 我下的是 TensorRT 7 0 0 11 配置如下 export TR PATH
  • 光纤通道速率查看_光纤好坏如何区分,OM1234多模光纤有何区别?

    1 OM1 颜色为橙色 核心尺寸 62 5um 数据速率 1GB 850nm 距离 高达300米 应用 短程网络 局域网 LAN 和专用网络 2 OM2 颜色为橙色 核心尺寸 50um 数据速率 1GB 850nm 距离 高达600米 通常
  • Linux中用root用户打开vscode

    先打开终端切换到root用户 su root 接着输入 sudo code user data dir vscode root

随机推荐

  • 对数器

    对数器的作用 对数器可以说是验证算法是否正确的一种方式 尤其是在笔试的时候 用贪心算法写出的程序 暂时无法用数学公式严格推导证明 只能通过大量的数据集验证算法的正确性 而大量的数据集当中要包括各种情况 各个方面都要考虑到 对我们自己来说 有
  • WDK_学习笔记_区块链+ViT和Swin transformer

    文章目录 摘要 一 項目 Hyperledger fabric技术的深入学习 1 1 安装 2 2 0 只记录问题 其余按文档操作即可 二 深度学习 Version Transformer ViT 和Swin Transformer 2 1
  • 【Unity从零开始制作空洞骑士】①制作人物的移动跳跃转向以及初始的动画制作

    事情的起因 首先我之前在b站的时候突然发现有个大佬说复刻了空洞骑士 点进去一看发现很多场景都福源道非常详细 当时我除了觉得大佬很强的同时也想自己试一下 而且当时对玩家血条设计等都很模糊 就想着问up主 结果因为制作的时间过了很久了 大佬也有
  • Mock入门

    关键参数 name 唯一标识 return value 当被调用时 返回的值 可为函数 side effct 当存在时 return value不生效 返回side effect 导入库 from unittest import mock
  • 用户画像-标签体系

    1 前言 最近在学习用户画像 翻看了 彭友会 的七十多份资料 简单过了一遍赵宏田老师的书 最近又看了许多微信公众号里的文章 整体感受就是 资料太杂 内容太乱 重复的太多 相互间也会有些冲突 但大致可以归为两类 赵宏田老师的一套 另外其它的一
  • PDF文件复制文字

    最近在看电子书时 发现有的一些 PDF 文件看起来像是扫描的 但能直接复制文字 有的则不能 查找相关资料后明白了 不能复制的pdf文件 01 pdf文件加密了 02 扫描和图形格式做的PDF文件 PDF文件如果加密了 对于一些不允许做修改
  • Android关于AutoService、Javapoet讲解

    AutoService会自动在META INF文件夹下生成Processor配置信息文件 该文件里就是实现该服务接口的具体实现类 而当外部程序装配这个模块的时候 就能通过该jar包META INF services 里的配置文件找到具体的实
  • ChatGPT不能代替人类写作的四个原因

    近期留学圈最火的C位当属ChatGPT 作为一款OpenAI开发的语言模型 ChatGPT在文本生成上的优秀表现大大助力了母语非当地语言的留学生们 写邮件 翻译并理解文本乃至写代码 ChatGPT似乎所向披靡 不少同学也产生了这个想法 用它
  • pageHelper分页失效解决方案

    前言 pageHelper是一款优秀的Mybatis分页插件 在项目中可以非常便利的使用 使开发效率得到很大的提升 但不支持一对多结果映射的分页查询 所以在平时的使用时 对于一对多分页会出现分页错误 这篇文章主要对pageHelper分页错
  • activiti学习之服务任务

    写在前面 对于工作流 我们使用最多的是用户任务节点 用户任务节点就是给用户来生成任务的 需要人来手动的处理 而与之对应的还有服务任务节点 这种类型的节点需要人手动的参与而是程序来执行 即执行某个类的某个方法 这个类一般是org activi
  • Java 实现 MD5 加密算法

    1 MD5 加密算法 1 1 MD5 算法介绍 MD5 消息摘要算法 英文 MD5 Message Digest Algorithm 一种被广泛使用的密码散列函数 可以产生出一个128位 16字节 的散列值 hash value 用于确保信
  • 子图匹配算法——VF2算法讲解

    讲的很通透了 https zhuanlan zhihu com p 259393192
  • CSS五款超好用的布局网站

    CSS Grid Generator https cssgrid generator netlify app CSS Layout https csslayout io Flexbox Generator https loading io
  • vtkdicom0.8_vtk9.2_dcmtk3.6.7_qt6.2编译OK

    目录 0 结果展示 1 cmake要点 2 编译报错解决 3 参考链接 0 结果展示
  • 吃透Chisel语言.23.Chisel时序电路(三)——Chisel移位寄存器(Shift Register)详解

    Chisel时序电路 三 Chisel移位寄存器 Shift Register 详解 上一篇文章介绍了Chisel计数器以及一些高级用法 内容很多 学下来肯定收获也会很多 除了计数器以外 还有一种寄存器的应用十分广泛 那就是移位寄存器 这一
  • Linux Test Project(一)

    http www vimlinux com lipeng 2014 09 12 ltp Testing Linux one syscall at a time LTP是从SGI开始的 后由IBM 思科 富士通 SUSE Redhat等组织开
  • Java多线程下 ThreadLocal 的应用实例

    ThreadLocal很容易让人望文生义 想当然地认为是一个 本地线程 其实 ThreadLocal并不是一个 Thread 而是 Thread 的局部变量 也许把它命名为 ThreadLocalVariable更容易让人理解一些 当使用
  • jQuery Ajax 初始化方法

    ajaxSetup headers Authorization auth token cache false 禁用缓存 dataType json contentType application json contentType appli
  • 《深入理解java虚拟机》笔记

    深入理解java虚拟机 走进java java不仅仅是一门编程语言 还是一个由一系列计算机软件和规范形成的技术体系 她有以下优点 结构严谨 面向对象 摆脱硬件平台的限制 实现了一次编写 到处运行 提供了一个相对安全的内存管理和访问机制 有一
  • 面向文本和视觉线索联合推断的多模态上下文推理方法

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 报告题目 面向文本和视觉线索联合推断的多模态上下文推理方法 内容简介 联合文本和视觉线索条件推理任务是一项复杂多模态推理任务 其中 文本线索提供与视觉内容互补的先验假设或者外部知