CFSum: A Coarse-to-Fine Contribution Network for MMS

2023-10-29

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

作者：肖敏，朱军楠，林海涛，周玉，宗成庆

单位：中国科学院自动化研究所

邮箱：min.xiao@nlpr.ia.ac.cn

1.摘要

多模式摘要通常存在一个问题，即视觉模态的贡献不清晰。现有的多模式摘要方法主要关注不同模态的融合方法，而忽视了视觉模态在哪些条件下是有用的。因此，文章提出了一种新颖的多模态摘要的由粗到精的贡献网络（CFSum），以考虑图像对摘要的不同贡献。首先，为了消除无用图像的干扰，文章提出了一个预过滤模块来消除无用图像。其次，为了准确使用有用的图像，文章提出了两级视觉补充模块：词级别和短语级别。具体而言，计算图像的贡献并用于引导文本和视觉模态的注意力。实验结果表明，CFSum在标准数据集上明显优于多个强大的基线模型。此外，分析验证了有用的图像甚至可以帮助生成隐含在图像中的非视觉词汇。

2.方法

图1

2.1由粗到精的框架

模型基于多模式变换器UNITER和GRU编码器-解码器架构构建而成。文章将该模型称为UniG。如图1所示，为了评估不同模态的互补性，双模态和单模态输入与相同的编码器并行操作。这两个并行流可以捕捉图像的增益。此外，文章依靠双模态编码生成摘要。单模态编码用于测量不同贡献并引导双模态编码。具体来说，多模式编码器由L层组成，文章将这L层构建成一个分级结构，如图1所示。L_f, L_w, L_p分别标记为预过滤器、词级补充和短语级补充模块的起始层。现有研究假设所有图像都有助于摘要生成或输入文本编码，导致了不必要图像的干扰。预过滤模块用于预先消除误导性图像的干扰。接下来，词级别补充模块用于建模图像对摘要输入词的增益。然后，图像增益引导了单词和图像之间的后续注意力。同理，短语级补充模块集中在较高层的短语上。

图2

2.2 预过滤模块

预过滤模块的目标是过滤掉对摘要不必要的图像。如图2所示，给定来自第L_f层的两个编码特征m^{L_f}和u^{L_f}，过滤模块的目标是选择那些无用的图像并引导所有后续层的自注意力。文章认为，如果双模态特征与单模态特征的一致性较低，图像可能会引入干扰性信息。具体来说，文章首先计算单模态特征u^{L_f}和双模态特征m^{L_f}之间的一致性Δ^C，如下所示：

这个一致性值表示了文本关注图像、图像关注文本以及图像关注自身的情况。这里，为了方便修正自注意力，定义了一个索引函数：

如图2所示，文章修正新的后续自注意力为na^i_{r,s}，具体计算如下：

2.3词级别增益模块

图3

文章希望使用互信息来计算图像对摘要的增益。换句话说，文章想要衡量基于双模态特征m^L生成摘要是否比基于单模态特征u^L更加确定性。因此，文章期望计算参考摘要的第k个单词的图像增益：

然而，文章打算在生成摘要S和编码m^L之前获得GI_k，从而GI可以有助于生成S和编码m^L。为此，文章定义了Copy 任务Y来近似摘要任务S：对于每个输入文本标记t_j，目标是二进制分类，即它是否出现在参考摘要中。如果标记出现在参考摘要中，则分类为\hat{y_j}=1；否则，\hat{y_j}=0。接下来，GI_j由以下公式给出：

公式推导为：

文章引入了KL散度损失来约束：具有更大增益的图像应该受到更多的文本关注度。在编码器第i∈[L_w+1,L_w+3]层中，每个文本标记t_j与图像之间的平均互关注是：

最后，添加了一个注意力散度损失来限制互关注得分T2V_j^i与GI_j之间的关系：

2.4 短语级别增益模块

图4

同理于词级别增益模块，增益计算和增益指导attention矩阵的方式一样。区别在于1）计算增益时，为了获得短语级别增益，提出的近似任务为短语打分任务：输入短语中有多少词会出现在参考摘要中；2）增益指导时，利用增益指导attention矩阵中的短语和图片之间的关注度。

3.实验结果

在Multimodal Sentence Summarization数据集上做了实验，实验结果如表1：

表1

其中，F表示pre-filter过滤模块，W表示词级别的增益模块，P表示短语级别的增益模块，它们各自的下标表示L_f, L_w, L_p 的设定值。K1表示只用一个贡献模块，K2表示用两个贡献模块，K3表示三个贡献模块全部用上。通过实验结果可以看出，用三个贡献模块的性能要优于两个贡献模块，优于一个贡献模块。证明了每一个贡献模块都是能够给模型带来性能提升的。

4.分析

图5

首先，这里文章希望可视化去看词级别增益和短语级别增益。如图5所示，输入一张图片和一段文本，红色框表示的是，将输入文本手动对齐到摘要中。不一定是一模一样的词，语义相似，或者单复数的词也被会对齐。蓝色实心点和橘色实心点表示是增益大于0的词。首先，可以发现，文章词级别和短语级别的增益，几乎可以覆盖所有的摘要内容。这证明了，文章提出的增益的确是可以帮助生成摘要的。另一方面，不同级别的模块会在不同的地方带来增益，不是完全重合的。这就证明了，文章多个增益模块比单个增益模块能带来更好的性能提升。

图6

另一方面，文章想关注图片会在哪些词上会带来增益。文章列举了三个受到增益的词（如图6所示），以及它们各自相关的图片，可以看到：比如earthquake这种可视化的词是能够带来增益的。更重要的是，像celebrate, sharply这些非可视化的词也可以被关注到。并且观察相关的图片，比如celebrate可以被用在比赛中，集会中，以及外交中。在其它多模态任务比如多模态翻译，字幕生成任务中，大多会关注把图片和earthquake这种可视化的词建立关联，但在多模态摘要中，图片也是能够为非可视化的词带来增益的。

5.结论

（1）文章提出了一个有粗到精的贡献多模态摘要网络，来建模图片对于摘要的不同贡献。并且这个模型在实验结果上被证明能够很大程度改善多模态摘要的性能。

（2）另一方面，进一步的分析证明了，在未来的工作中，非可视化的词和图片的联系也不容忽视，需要被建模。

Paper: https://aclanthology.org/2023.acl-long.476.pdf

Code: https://github.com/xiaomin418/CFSum

提

醒

点击“阅读原文”跳转至01:03:47，

即可查看回放

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1300多位海内外讲者，举办了逾600场活动，超600万人次观看。

我知道你

在看

哦

点击 阅读原文 查看回放！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CFSum: A Coarse-to-Fine Contribution Network for MMS 的相关文章

【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

后缀mcp用什么软件打开_如何打开MCP文件？

下载通用文件查看器 File Magic 安装可选产品 File Magic Solvusoft EULA Privacy Policy Terms Uninstall 步骤1 尝试不同的软件程序如果无法打开MCP文件则可能没有在计算机
JS实现插入排序

1 算法简介插入排序的工作原理就是将未排序数据对已排序数据序列从后向前扫描找到对应的位置并插入插入排序通常采用占位的形式空间复杂度为O 1 因此在从后向前扫描的过程中需要反复的把已排序的元素逐步向后挪位为新插入元素提供插入的
xpath案例-解析所有城市名称

第一种方法把热门城市和所有城市分开来考虑 import requests from lxml import etree if name main headers User Agent Mozilla 5 0 Windows NT 10 0
MQTT协议学习：1、MQTT协议了解

MQTT协议学习 1 MQTT协议了解文章目录 MQTT协议学习 1 MQTT协议了解 1 前言 2 MQTT简介 1 概述 2 相关名称 3 协议应用 4 开源方案 3 适用于FreeRTOS的MQTT库 4 最后 1 前言 MQTT可
CNN模型之LeNet-5

一介绍卷积神经网络是当前深度学习领域比较火的研究方法其应用主要是在计算机视觉上例如图像分类目标检测人脸识别等等并且已经在这些领域取得了相当大的成就本文主要介绍卷积神经网络的开篇之作 LeNet 5 LeNet 5由Y Le
vue在线预览word、excel、PDF

1 安装依赖 docx文档预览组件 npm install vue office docx vue demi 0 13 11 S excel文档预览组件 npm install vue office excel vue demi 0 13
P4 晶体管四种工作状态+静态分析【更新】

gt 晶体管四种工作状态放大饱和截止倒置 gt 静态分析定量分析晶体管处于何种工作状态注意不安全区暂时不用关注倒置状态暂时也可以不关注放大区之所以称为放大区因为在这个区域 iB 与iC满足放大beta倍的关系这是表面
getopt函数（未更新完）

2023年7月28日周五上午这是我目前碰到过的比较复杂的函数之一为了彻底弄懂这个函数我花了几个小时为了更好的说明这个函数之后我可能会录制讲解视频并上传到B站如果我上传到B站我会在文章添加视频链接的内容太多了没写完有空再
java Logback输出日志内容到文件

要将logger info的信息输出到文件您可以使用Logback配置下面是一个简单的示例 1 首先在您的项目中添加Logback依赖例如在Maven项目中的pom xml文件中添加以下代码
基于OpenCV的交通标志识别(SVM+Hu不变矩, 部分测试源代码)

最近跟着老师做一个交通识别的项目总算明白了一个道理这水啊不去亲自蹚上一遭就不知道有多深更根本的原因当然还是自己学的不够扎实不够好经过了一个寒假的折磨终于做出了一个原型来想到了自己当时被折磨的头疼的样子想着将一部分源代码发上
前端post请求中body和query传参的区别

前端发送请求最常用的是get请求还有post请求 get请求只能传query参数 query参数都是拼在请求地址上的 post可以传body和query两种形式的参数如下编辑项目列表 export function editProjec
SeqGPT: 开箱即用的开放域自然语言理解大模型

论文链接 SeqGPT An Out of the box Large Language Model for Open Domain Sequence Understanding https arxiv org abs 2308 10529
【DL】血与泪的炼丹心得

记录一些炼丹的心得都是坑啊以下都是经过很多实验得到的炼丹心得希望对大家有帮助模型很复杂各种网络融合尝试用更小的学习率和更多的epoch 学习率预热是个好东西必须用上学习率很重要可以发掘模型的极限但是无法改变模型的上限模
DataAnalysis-Maggie-Lecture6-机器学习基础

ML的基础框架 1定义要解决的问题 2构建数据集 3数据变换 4训练模型 5使用模型预测 example 垃圾邮件标记系统来解释术语 Dataset 一堆的邮件 Sample Instances 一封邮件 Feature Variables
springcloud微服务：nacos的配置说明与服务注册

这部分我要知道两点就是nacos如何去注册服务和发现服务的一工程结构和版本依赖首先要说一个我们的springcloud工程基于半仙的springcloud工程这个工程比较有意思就是我很少看到pom文件一层套一层相当于是三级po
修改el-card的header的背景颜色

修改el card的header的背景颜色 1 修改默认样式好处是当前页面的所有的el card都会变化页面卡片
linux0.00 代码阅读笔记

汇编语言的编写编译运行调试 author hjjdebug date 参考代码地址 GitHub hjjdebug linux0 00 linux0 00 code compiled under ubuntu14 04 gcc 4 8
Vue3的基本语法及使用（vue3尚硅谷学习笔记）

一 Vue3的基本语法及使用 1 Vue3的基本语法 1 1 初识setup setup是Vue3中一个新的配置项值为一个函数组件中所要用到的数据方法等均要配置在setup中 setup的两种返回值若返回一个对象则对象中的属性
QT编程常见崩溃问题总结

一主程序事件循环函数崩溃 a exec 处崩溃该处崩溃一般调试的时候显示的堆栈信息停止的位置都是QT的dll库我们的代码中只给出了a exec 崩溃原因一子线程中更改界面上控件在Qt事件循环中一般只有主线程可以用来改变某一个显示
CFSum: A Coarse-to-Fine Contribution Network for MMS

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入作者肖敏朱军楠林海涛周玉宗成庆单位中国科学院自动化研究所邮箱 min xiao nlpr ia ac cn 1 摘要多模式摘要通常存在一个问题即视觉模态的贡献

CFSum: A Coarse-to-Fine Contribution Network for MMS

CFSum: A Coarse-to-Fine Contribution Network for MMS 的相关文章

随机推荐

热门标签