CFSum: A Coarse-to-Fine Contribution Network for MMS

2023-10-29

点击蓝字

052a446413f86a0e33e1d78a31cc2baf.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

作者:肖敏,朱军楠,林海涛,周玉,宗成庆

单位:中国科学院自动化研究所

邮箱:min.xiao@nlpr.ia.ac.cn

1.摘要

多模式摘要通常存在一个问题,即视觉模态的贡献不清晰。现有的多模式摘要方法主要关注不同模态的融合方法,而忽视了视觉模态在哪些条件下是有用的。因此,文章提出了一种新颖的多模态摘要的由粗到精的贡献网络(CFSum),以考虑图像对摘要的不同贡献。首先,为了消除无用图像的干扰,文章提出了一个预过滤模块来消除无用图像。其次,为了准确使用有用的图像,文章提出了两级视觉补充模块:词级别和短语级别。具体而言,计算图像的贡献并用于引导文本和视觉模态的注意力。实验结果表明,CFSum在标准数据集上明显优于多个强大的基线模型。此外,分析验证了有用的图像甚至可以帮助生成隐含在图像中的非视觉词汇。

2.方法

69cdce1b462879f74d84a67ec21e762b.png

图1

2.1由粗到精的框架

模型基于多模式变换器UNITER和GRU编码器-解码器架构构建而成。文章将该模型称为UniG。如图1所示,为了评估不同模态的互补性,双模态和单模态输入与相同的编码器并行操作。这两个并行流可以捕捉图像的增益。此外,文章依靠双模态编码生成摘要。单模态编码用于测量不同贡献并引导双模态编码。具体来说,多模式编码器由L层组成,文章将这L层构建成一个分级结构,如图1所示。L_f, L_w, L_p分别标记为预过滤器、词级补充和短语级补充模块的起始层。现有研究假设所有图像都有助于摘要生成或输入文本编码,导致了不必要图像的干扰。预过滤模块用于预先消除误导性图像的干扰。接下来,词级别补充模块用于建模图像对摘要输入词的增益。然后,图像增益引导了单词和图像之间的后续注意力。同理,短语级补充模块集中在较高层的短语上。

0ff5dd7fb88b57f04a617b008d51d637.png

图2

2.2 预过滤模块

预过滤模块的目标是过滤掉对摘要不必要的图像。如图2所示,给定来自第L_f层的两个编码特征m^{L_f}和u^{L_f},过滤模块的目标是选择那些无用的图像并引导所有后续层的自注意力。文章认为,如果双模态特征与单模态特征的一致性较低,图像可能会引入干扰性信息。具体来说,文章首先计算单模态特征u^{L_f}和双模态特征m^{L_f}之间的一致性Δ^C,如下所示:

75ba8f81a1bbf1d10d2aaf23fce3da34.png

这个一致性值表示了文本关注图像、图像关注文本以及图像关注自身的情况。这里,为了方便修正自注意力,定义了一个索引函数:

81da469ba1422b96cfc74e7b7f0c18fe.png

如图2所示,文章修正新的后续自注意力为na^i_{r,s},具体计算如下:

2d9410d2eebce0f3833ce0e33c26faba.png

2.3词级别增益模块

a91402af9b041582739b72c4019a8525.png

图3

文章希望使用互信息来计算图像对摘要的增益。换句话说,文章想要衡量基于双模态特征m^L生成摘要是否比基于单模态特征u^L更加确定性。因此,文章期望计算参考摘要的第k个单词的图像增益:

74579522458bb3e0d66af8e9ad000a99.png

然而,文章打算在生成摘要S和编码m^L之前获得GI_k,从而GI可以有助于生成S和编码m^L。为此,文章定义了Copy 任务Y来近似摘要任务S:对于每个输入文本标记t_j,目标是二进制分类,即它是否出现在参考摘要中。如果标记出现在参考摘要中,则分类为\hat{y_j}=1;否则,\hat{y_j}=0。接下来,GI_j由以下公式给出:

634e4696c8b03fa8f9ce34cee4f115df.png

公式推导为:

521c299360062bc3e7a4391bcc8649b6.png

文章引入了KL散度损失来约束:具有更大增益的图像应该受到更多的文本关注度。在编码器第i∈[L_w+1,L_w+3]层中,每个文本标记t_j与图像之间的平均互关注是:

e3efd1c3da55fe5e5c1d2c3a7ee5717e.png

最后,添加了一个注意力散度损失来限制互关注得分T2V_j^i与GI_j之间的关系:

b8286af9c4ec4e2856db44653e9f0217.png

2.4 短语级别增益模块

f298c06ecb0c5c2f86add9d605f69593.png

图4

同理于词级别增益模块,增益计算和增益指导attention矩阵的方式一样。区别在于1)计算增益时,为了获得短语级别增益,提出的近似任务为短语打分任务:输入短语中有多少词会出现在参考摘要中;2)增益指导时,利用增益指导attention矩阵中的短语和图片之间的关注度。

3.实验结果

在Multimodal Sentence Summarization数据集上做了实验,实验结果如表1:

e0038d335094629889e5dfe690e462ff.png

表1

其中,F表示pre-filter过滤模块,W表示词级别的增益模块,P表示短语级别的增益模块,它们各自的下标表示L_f, L_w, L_p 的设定值。K1表示只用一个贡献模块,K2表示用两个贡献模块,K3表示三个贡献模块全部用上。通过实验结果可以看出,用三个贡献模块的性能要优于两个贡献模块,优于一个贡献模块。证明了每一个贡献模块都是能够给模型带来性能提升的。

4.分析

9178593042d7e6798b573bacd084316c.png

图5

首先,这里文章希望可视化去看词级别增益和短语级别增益。如图5所示,输入一张图片和一段文本,红色框表示的是,将输入文本手动对齐到摘要中。不一定是一模一样的词,语义相似,或者单复数的词也被会对齐。蓝色实心点和橘色实心点表示是增益大于0的词。首先,可以发现,文章词级别和短语级别的增益,几乎可以覆盖所有的摘要内容。这证明了,文章提出的增益的确是可以帮助生成摘要的。另一方面,不同级别的模块会在不同的地方带来增益,不是完全重合的。这就证明了,文章多个增益模块比单个增益模块能带来更好的性能提升。

724b241c32d5e5ef7e3420f42e4e8a0d.png

图6

另一方面,文章想关注图片会在哪些词上会带来增益。文章列举了三个受到增益的词(如图6所示),以及它们各自相关的图片,可以看到:比如earthquake这种可视化的词是能够带来增益的。更重要的是,像celebrate, sharply这些非可视化的词也可以被关注到。并且观察相关的图片,比如celebrate可以被用在比赛中,集会中,以及外交中。在其它多模态任务比如多模态翻译,字幕生成任务中,大多会关注把图片和earthquake这种可视化的词建立关联,但在多模态摘要中,图片也是能够为非可视化的词带来增益的。

5.结论

(1)文章提出了一个有粗到精的贡献多模态摘要网络,来建模图片对于摘要的不同贡献。并且这个模型在实验结果上被证明能够很大程度改善多模态摘要的性能。

(2)另一方面,进一步的分析证明了,在未来的工作中,非可视化的词和图片的联系也不容忽视,需要被建模。

Paper: https://aclanthology.org/2023.acl-long.476.pdf

Code: https://github.com/xiaomin418/CFSum

点击“阅读原文”跳转至01:03:47,

即可查看回放

往期精彩文章推荐

889bf6cc084d41310342aefadc735b49.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1300多位海内外讲者,举办了逾600场活动,超600万人次观看。

e4dee81ab8f750a64752cfe562b8b0f7.png

我知道你

在看

~

fcb4d234a1a9857742c4ce5f0bdbde7a.gif

点击 阅读原文 查看回放!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CFSum: A Coarse-to-Fine Contribution Network for MMS 的相关文章

随机推荐

  • 后缀mcp用什么软件打开_如何打开MCP文件?

    下载通用文件查看器 File Magic 安装可选产品 File Magic Solvusoft EULA Privacy Policy Terms Uninstall 步骤1 尝试不同的软件程序 如果无法打开MCP文件 则可能没有在计算机
  • JS实现插入排序

    1 算法简介 插入排序的工作原理就是将未排序数据 对已排序数据序列从后向前扫描 找到对应的位置并插入 插入排序通常采用占位的形式 空间复杂度为O 1 因此 在从后向前扫描的过程中 需要反复的把已排序的元素逐步向后挪位 为新插入元素提供插入的
  • xpath案例-解析所有城市名称

    第一种方法把热门城市和所有城市分开来考虑 import requests from lxml import etree if name main headers User Agent Mozilla 5 0 Windows NT 10 0
  • MQTT协议学习:1、MQTT协议了解

    MQTT协议学习 1 MQTT协议了解 文章目录 MQTT协议学习 1 MQTT协议了解 1 前言 2 MQTT简介 1 概述 2 相关名称 3 协议应用 4 开源方案 3 适用于FreeRTOS的MQTT库 4 最后 1 前言 MQTT可
  • CNN模型之LeNet-5

    一 介绍 卷积神经网络是当前深度学习领域比较火的研究方法 其应用主要是在计算机视觉上 例如 图像分类 目标检测 人脸识别等等 并且已经在这些领域取得了相当大的成就 本文主要介绍卷积神经网络的开篇之作 LeNet 5 LeNet 5由Y Le
  • vue在线预览word、excel、PDF

    1 安装依赖 docx文档预览组件 npm install vue office docx vue demi 0 13 11 S excel文档预览组件 npm install vue office excel vue demi 0 13
  • P4 晶体管四种工作状态+静态分析【更新】

    gt 晶体管四种工作状态 放大 饱和 截止 倒置 gt 静态分析 定量分析晶体管处于何种工作状态 注意 不安全区暂时不用关注 倒置状态暂时也可以不关注 放大区 之所以称为放大区 因为在这个区域 iB 与iC满足放大beta倍的关系 这是表面
  • getopt函数(未更新完)

    2023年7月28日 周五上午 这是我目前碰到过的比较复杂的函数之一 为了彻底弄懂这个函数 我花了几个小时 为了更好的说明这个函数 之后我可能会录制讲解视频并上传到B站 如果我上传到B站 我会在文章添加视频链接的 内容太多了 没写完 有空再
  • java Logback输出日志内容到文件

    要将logger info的信息输出到文件 您可以使用Logback配置 下面是一个简单的示例 1 首先 在您的项目中添加Logback依赖 例如在Maven项目中的pom xml文件中添加以下代码
  • 基于OpenCV的交通标志识别(SVM+Hu不变矩, 部分测试源代码)

    最近跟着老师做一个交通识别的项目 总算明白了一个道理 这水啊 不去亲自蹚上一遭就不知道有多深 更根本的原因当然还是自己学的不够扎实 不够好 经过了一个寒假的折磨 终于做出了一个原型来 想到了自己当时被折磨的头疼的样子 想着将一部分源代码发上
  • 前端post请求中body和query传参的区别

    前端发送请求最常用的是get请求还有post请求 get请求只能传query参数 query参数都是拼在请求地址上的 post可以传body和query两种形式的参数 如下 编辑项目列表 export function editProjec
  • SeqGPT: 开箱即用的开放域自然语言理解大模型

    论文链接 SeqGPT An Out of the box Large Language Model for Open Domain Sequence Understanding https arxiv org abs 2308 10529
  • 【DL】血与泪的炼丹心得

    记录一些炼丹的心得 都是坑啊 以下都是经过很多实验得到的炼丹心得 希望对大家有帮助 模型很复杂 各种网络融合 尝试用更小的学习率和更多的epoch 学习率预热是个好东西 必须用上 学习率很重要 可以发掘模型的极限 但是无法改变模型的上限 模
  • DataAnalysis-Maggie-Lecture6-机器学习基础

    ML的基础框架 1定义要解决的问题 2构建数据集 3数据变换 4训练模型 5使用模型预测 example 垃圾邮件标记系统来解释术语 Dataset 一堆的邮件 Sample Instances 一封邮件 Feature Variables
  • springcloud微服务:nacos的配置说明与服务注册

    这部分我要知道两点就是nacos如何去注册服务和发现服务的 一 工程结构和版本依赖 首先要说一个我们的springcloud工程 基于半仙的springcloud工程 这个工程比较有意思 就是我很少看到pom文件一层套一层 相当于是三级po
  • 修改el-card的header的背景颜色

    修改el card的header的背景颜色 1 修改默认样式 好处是当前页面的所有的el card都会变化 页面卡片
  • linux0.00 代码阅读笔记

    汇编语言的编写 编译 运行 调试 author hjjdebug date 参考代码地址 GitHub hjjdebug linux0 00 linux0 00 code compiled under ubuntu14 04 gcc 4 8
  • Vue3的基本语法及使用(vue3尚硅谷学习笔记)

    一 Vue3的基本语法及使用 1 Vue3的基本语法 1 1 初识setup setup是Vue3中一个新的配置项 值为一个函数 组件中所要用到的数据 方法等 均要配置在setup中 setup的两种返回值 若返回一个对象 则对象中的属性
  • QT编程常见崩溃问题总结

    一 主程序事件循环函数崩溃 a exec 处崩溃 该处崩溃一般调试的时候显示的堆栈信息停止的位置都是QT的dll库 我们的代码中只给出了a exec 崩溃 原因一 子线程中更改界面上控件 在Qt事件循环中一般只有主线程可以用来改变某一个显示
  • CFSum: A Coarse-to-Fine Contribution Network for MMS

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 作者 肖敏 朱军楠 林海涛 周玉 宗成庆 单位 中国科学院自动化研究所 邮箱 min xiao nlpr ia ac cn 1 摘要 多模式摘要通常存在一个问题 即视觉模态的贡献