AAAI 2021

2023-10-27

作者:孙宇冲

单位:中国人民大学

多模态学习旨在使计算机拥有处理不同来源信息的能力,近年来成为了人工智能领域的研究热点。多模态学习将不同模态信息进行融合,学习不同模态信息之间的关联。人类对信息的处理其实也是多模态的,如人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等。多模态学习不仅可以用在视觉、听觉和自然语言信息的融合,也可以广泛用在雷达、传感器等信息的分析处理。因此多模态学习的研究和应用也越来越广泛。

在AAAI 2021上有许多多模态方向的相关研究,以下对AAAI 2021上多模态相关研究的最新进展作总结:

01

Image-Text多模态研究

常见的图文多模态研究的任务主要有Image Caption、图文跨模态检索等,在AAAI 2021上也有多模态翻译、视觉故事生成、多模态命名实体识别等相关研究。

近年来出现了许多图文预训练模型,在 AAAI 2021上,百度提出的ERNIE-VIL[1]模型利用场景图中结构化的知识,使用场景图预测任务进行预训练,使模型能够进行细粒度的语义对齐。VIVO[2]模型使用Image-Tag进行预训练,使语义标签能和图片中的region特征对齐,在下游的Image Caption任务中,解决了新物体(Novel Object)识别的问题。RpBERT[3]使用多模态BERT模型来完成多模态命名实体识别任务,提出的Relation Propagation机制可以根据图片文本之间的相关性更好地利用视觉信息。

Wang et al. [4]研究了多模态翻译任务,使用了Object-masking损失使模型可以把翻译的实体和图片中相关的Object相联系。Chen et al. [5]研究了视觉故事讲述任务,先使用常识知识进行概念选择,然后使用预训练模型从概念和图片生成完整的故事,增强了故事的丰富性和多样性。Zhang et al.[6]也研究了多模态命名实体识别问题,提出一种多模态图融合的方法融合语义单元信息。

02

Video-Text多模态研究

AAAI 2021上关于Video-Text多模态的研究主要有视频描述生成、视频文本对齐等。

Yang et al. [7]提出一种非自回归方法用于视频描述生成,该方法先并行地从视频中提取出visual words并生成句子模板,然后再通过细粒度的解码生成完整的描述。Lin et al. [8]使用多个Decoder相互学习,实验表明该策略对每一个Decoder的效果都有改善,作者还提出使用frame-mask的方式来解决one-to-many问题。

Chen et al. [9]研究了Text-Video检索中存在的领域适应问题,作者提出了一个UDAVR(Unsupervised Domain Adaptation for Video Retrieval)评测基准,并使用CAPQ(Concept-Aware-Pseudo-Query)模型学习具有区分性和可转移性的特征来连接跨领域的差异。Bao et al. [10]提出了dense events grounding问题,提出了DepNet(Dense Events Propagation Network)模型,通过聚合与传播机制有效捕捉事件的时序关系和语义联系,实验结果表明,该方法相较于单事件grounding具有明显的性能优势。Xiao et al. [11]提出了BPNet,使用两阶段的方法来研究自然语言视频定位,结合了Anchor-based和Anchor-free方式的优点。

03

其他多模态研究

除了对图片、视频和文本模态的研究,在AAAI 2021上也有对音频、电子健康记录和传感器等模态信息的研究,一些研究者利用多模态方法研究了社会关系抽取、情感识别和虚假新闻检测等问题。

Huang et al. [12]研究了面向音频的多模态机器理解,其目标是在给定音频和文本信息的基础上回答问题。电子健康记录(EHR, electronic health records)具有复杂的多模态结构,Xu et al. [13]使用神经结构搜索(NAS)和多模态融合架构搜索(MUFASA)来同时选择单模态和跨模态的网络架构,该方法在公开的EHR数据集上的效果优于单模态NAS。VMLoc[14]模型使用Prodoct-of-Experts和注意力机制融合多个传感器的输入,模型在RGB-D数据集上验证了模型的有效性。

Wan et al. [15]研究了结合文本和人脸图像进行社会关系抽取,实验表明该方法优于基于BERT的文本单模态baseline。Yu et al. [16]和Zhang et al. [17]研究了多模态情感识别问题,前者设计了多任务学习来增强模态特征表示的一致性和差异性,后者则关注了多标签情感分类问题。Silva et al. [18]研究了利用多模态数据进行跨域假新闻检测,利用新闻记录中保留特定领域和跨领域的知识来检测跨领域新闻数据集中的假新闻。

参考文献

[1] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

[2] VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

[3] RpBERT: A Text-Image Relation Propagation-Based BERT Model for Multimodal NER

[4] Efficient Object-Level Visual Context Modeling for Multimodal Machine Translation: Masking Irrelevant Objects Helps Grounding

[5] Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling

[6] Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance

[7] Non-Autoregressive Coarse-to-Fine Video Captioning

[8] Augmented Partial Mutual Learning with Frame Masking for Video Captioning

[9] Mind-the-Gap! Unsupervised Domain Adaptation for Text-Video Retrieval

[10] Dense Events Grounding in Video

[11] Boundary Proposal Network for Two-Stage Natural Language Video Localization

[12] Audio-Oriented Multimodal Machine Comprehension via Dynamic Inter- and Intra-modality Attention

[13] MUFASA: Multimodal Fusion Architecture Search for Electronic Health Records

[14] VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization

[15] FL-MSRE: A Few-Shot Learning based Approach to Multimodal Social Relation Extraction

[16] Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis

[17] Multi-modal Multi-label Emotion Recognition with Heterogeneous Hierarchical Message Passing

[18] Embracing Domain Differences in Fake News: Cross-domain Fake News Detection using Multimodal Data

推荐阅读:

AAAI 2021 | 图神经网络·最新进展解读

AAAI 2021 | 机器翻译·最新进展解读

AAAI 2021 | 情感分析·最新进展解读

AAAI 2021 | Transformer·最新进展解读

【关于智源社区】

智源社区隶属于北京智源人工智能研究院,我们致力于创建一个AI领域内行人的交流平台。

在这里你有机会参与全年线上线下百场专题论坛,与顶尖学者零距离接触;也可以与同行探讨领域前沿,碰撞思想火花。如果你更想进入微信群与更多同行人发起实时讨论,或者加入「青源会」结识更多研究伙伴,或者成为智源社区编辑参与更多文字工作,欢迎填写以下表单(扫描二维码)进行申请。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AAAI 2021 的相关文章

随机推荐

  • Java 哈希函数 哈希表 动态容量 链地址法 简介+实现

    简介 哈希函数 整型 浮点型 字符串型 Java 中的hashCode 哈希冲突 时间复杂度 动态空间处理 适用范围 实现 简介 实现哈希表有两个主要的问题 一个是解决哈希函数的设计 一个是哈希冲突的处理 哈希函数 键通过哈希函数可以得到一
  • UVA-1354 天平难题 题解答案代码 算法竞赛入门经典第二版

    GitHub jzplp aoapc UVA Answer 算法竞赛入门经典 例题和习题答案 刘汝佳 第二版 这道题需要 1 遍历二叉树的每种构成方式 我这里每次把当前所有结点列出 然后遍历选取两个组合构成一个新结点 原来的结点剔除 新结点
  • 17张经典动态图带您看懂电动机运行原理!电机一共有多少种?

    电动机 电动机是一种旋转式电动机器 它将电能转变为机械能 它主要包括一个用以产生磁场的电磁铁绕组或分布的定子绕组和一个旋转电枢或转子 在定子绕组旋转磁场的作用下 其在电枢鼠笼式铝框中有电流通过并受磁场的作用而使其转动 这些机器中有些类型可作
  • php弹窗24小时一次,javascript 24小时弹出一次的代码(利用cookies)_广告代码

    function jb51tuitan if getCookie jb51popped 要执行的代码或一些操作 setCookie jb51popped ok 写入cookies表示已经执行过了 alert ok jb51tuitan fu
  • spring mvc 集成freemarker模板

    主要使用到的jar 文件 spring mvc freemarker jar 第一步 spring mvc 集成 freemarker
  • SQL如何进行帕累托分析?(窗口函数、累计百分比分类)

    帕累托分析法是指定决策的统计方法 包含按降序排序的列和表示累积总百分比的线条 面试题 有一张 学生成绩表 包含3个字段 学号 课程 成绩 问题 找出每门课程A类和B类的学生 判断标准是累计占比 0 60 的记为A类 60 85 记为B类 解
  • GPIO模块功能测试

    目录 1 功能描述 2 端口复用 3 如何操作 4 测试代码分析 4 1GPIO VERIFICATION01 GPIO复位值验证 4 2GPIO VERIFICATION02 GPIO读写验证 4 3GPIO VERIFICATION03
  • WebGL射线拾取模型——八叉树优化

    经过前面2篇WebGL射线拾取模型的文章 相信大家对射线和模型面片相交的原理已经有所了解 那么今天我们再深入探究关于射线拾取的一个问题 那就是遍历场景中的所有与射线相交的模型的优化问题 首先我们来复习一下射线拾取模型的原理 请看下图 我们从
  • ELK 日志系统收集K8s中日志

    容器特性给日志采集带来的困难 K8s弹性伸缩性 导致不能预先确定采集的目标 容器隔离性 容器的文件系统与宿主机是隔离 导致日志采集器读取日志文件受阻 日志按体现方式分类 应用程序日志记录体现方式分为两类 标准输出 输出到控制台 使用kube
  • 人工智能算法 上市公司,人工智能算法公司排名

    人工智能上市公司龙头股票有哪些 一 科大讯飞 002230 属于人工智能稀缺标的 多领域布局苦尽甘来 业绩拐点临近 二 浪潮信息 000977 人工智能基础设施提供商 目前具备业界最全CPU服务器产品线 三 中科曙光 603019 含着金钥
  • 第十二章 内中断

    引言 本书主要讲解硬件中断 12 1 内中断的产生 12 2 中断处理程序 12 3 中断向量表 中断向量表在内存中存放 对于8086PC机 中断向量表指定存放在内存地址0处 从内存0000 0000到0000 03FF的1024个单元中存
  • 微信小程序npm构建

    步骤 一 初始化 npm init y 自动生成生成package json文件 二 project config js配置项 packNpmManually false packNpmRelationList packageJsonPat
  • error: No rule to make target ‘...‘. Stop. 解决方案

    一 error 二 解决方案 第一步 删除 xxx pro 文件中的 RESOURCES xxx qrc 然后 CTRL S 保存文件 第二步 重新添加资源文件 注 文件名不要使用中文 以避免未知的错误 三 环境
  • 类成员函数创建线程

    include
  • iOS--伪后台(安卓与iOS区别)

    1 后台机制方面的区别 提到后台 大家应该会很容易想到安卓的真后台了吧 所谓真后台 就是像PC一样 将应用保留在RAM中 当你使用HOME键退出应用 程序实际上并没有完全退出 而是被系统挂在了后台 比如一些聊天软件 之所以关闭后依然能够收到
  • 注意力机制详述

    学习本部分默认大家对RNN神经网络已经深入理解了 这是基础 同时理解什么是时间序列 尤其RNN的常用展开形式进行画图 这个必须理解了 这篇文章整理有关注意力机制 Attention Mechanism 的知识 主要涉及以下几点内容 1 注意
  • Django 项目使用 Bootstrap 的导入方式

    Django 项目中导入 Bootstrap 是固定的 补充 1 Django 项目的 html 文件中必须先写 meta 再引入其他内容 并且对于导入 JS 的先后顺序有比较严格的要求 补充 2 Django 项目表单中使用POST的方法
  • C++ 对象模型

    C 对象模型 虚函数机制 实现执行器绑定 虚基类机制 实现多继承体系中只有一个共享实体 非静态数据成员放在 object 之中 静态数据成员放在 object 之外 静态和非静态成员函数都放在 object 之外 每个类会产生一堆指向虚函数
  • 表单--form对象

    在Javascript 中 页面上的每一对
  • AAAI 2021

    作者 孙宇冲 单位 中国人民大学 多模态学习旨在使计算机拥有处理不同来源信息的能力 近年来成为了人工智能领域的研究热点 多模态学习将不同模态信息进行融合 学习不同模态信息之间的关联 人类对信息的处理其实也是多模态的 如人可以同时利用视觉和听