AAAI 2021

2023-10-27

作者：孙宇冲

单位：中国人民大学

多模态学习旨在使计算机拥有处理不同来源信息的能力，近年来成为了人工智能领域的研究热点。多模态学习将不同模态信息进行融合，学习不同模态信息之间的关联。人类对信息的处理其实也是多模态的，如人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等。多模态学习不仅可以用在视觉、听觉和自然语言信息的融合，也可以广泛用在雷达、传感器等信息的分析处理。因此多模态学习的研究和应用也越来越广泛。

在AAAI 2021上有许多多模态方向的相关研究，以下对AAAI 2021上多模态相关研究的最新进展作总结：

Image-Text多模态研究

常见的图文多模态研究的任务主要有Image Caption、图文跨模态检索等，在AAAI 2021上也有多模态翻译、视觉故事生成、多模态命名实体识别等相关研究。

近年来出现了许多图文预训练模型，在 AAAI 2021上，百度提出的ERNIE-VIL[1]模型利用场景图中结构化的知识，使用场景图预测任务进行预训练，使模型能够进行细粒度的语义对齐。VIVO[2]模型使用Image-Tag进行预训练，使语义标签能和图片中的region特征对齐，在下游的Image Caption任务中，解决了新物体(Novel Object)识别的问题。RpBERT[3]使用多模态BERT模型来完成多模态命名实体识别任务，提出的Relation Propagation机制可以根据图片文本之间的相关性更好地利用视觉信息。

Wang et al. [4]研究了多模态翻译任务，使用了Object-masking损失使模型可以把翻译的实体和图片中相关的Object相联系。Chen et al. [5]研究了视觉故事讲述任务，先使用常识知识进行概念选择，然后使用预训练模型从概念和图片生成完整的故事，增强了故事的丰富性和多样性。Zhang et al.[6]也研究了多模态命名实体识别问题，提出一种多模态图融合的方法融合语义单元信息。

Video-Text多模态研究

AAAI 2021上关于Video-Text多模态的研究主要有视频描述生成、视频文本对齐等。

Yang et al. [7]提出一种非自回归方法用于视频描述生成，该方法先并行地从视频中提取出visual words并生成句子模板，然后再通过细粒度的解码生成完整的描述。Lin et al. [8]使用多个Decoder相互学习，实验表明该策略对每一个Decoder的效果都有改善，作者还提出使用frame-mask的方式来解决one-to-many问题。

Chen et al. [9]研究了Text-Video检索中存在的领域适应问题，作者提出了一个UDAVR(Unsupervised Domain Adaptation for Video Retrieval)评测基准，并使用CAPQ(Concept-Aware-Pseudo-Query)模型学习具有区分性和可转移性的特征来连接跨领域的差异。Bao et al. [10]提出了dense events grounding问题，提出了DepNet(Dense Events Propagation Network)模型，通过聚合与传播机制有效捕捉事件的时序关系和语义联系，实验结果表明，该方法相较于单事件grounding具有明显的性能优势。Xiao et al. [11]提出了BPNet，使用两阶段的方法来研究自然语言视频定位，结合了Anchor-based和Anchor-free方式的优点。

其他多模态研究

除了对图片、视频和文本模态的研究，在AAAI 2021上也有对音频、电子健康记录和传感器等模态信息的研究，一些研究者利用多模态方法研究了社会关系抽取、情感识别和虚假新闻检测等问题。

Huang et al. [12]研究了面向音频的多模态机器理解，其目标是在给定音频和文本信息的基础上回答问题。电子健康记录(EHR, electronic health records)具有复杂的多模态结构，Xu et al. [13]使用神经结构搜索(NAS)和多模态融合架构搜索(MUFASA)来同时选择单模态和跨模态的网络架构，该方法在公开的EHR数据集上的效果优于单模态NAS。VMLoc[14]模型使用Prodoct-of-Experts和注意力机制融合多个传感器的输入，模型在RGB-D数据集上验证了模型的有效性。

Wan et al. [15]研究了结合文本和人脸图像进行社会关系抽取，实验表明该方法优于基于BERT的文本单模态baseline。Yu et al. [16]和Zhang et al. [17]研究了多模态情感识别问题，前者设计了多任务学习来增强模态特征表示的一致性和差异性，后者则关注了多标签情感分类问题。Silva et al. [18]研究了利用多模态数据进行跨域假新闻检测，利用新闻记录中保留特定领域和跨领域的知识来检测跨领域新闻数据集中的假新闻。

参考文献

[1] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

[2] VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

[3] RpBERT: A Text-Image Relation Propagation-Based BERT Model for Multimodal NER

[4] Efficient Object-Level Visual Context Modeling for Multimodal Machine Translation: Masking Irrelevant Objects Helps Grounding

[5] Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling

[6] Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance

[7] Non-Autoregressive Coarse-to-Fine Video Captioning

[8] Augmented Partial Mutual Learning with Frame Masking for Video Captioning

[9] Mind-the-Gap! Unsupervised Domain Adaptation for Text-Video Retrieval

[10] Dense Events Grounding in Video

[11] Boundary Proposal Network for Two-Stage Natural Language Video Localization

[12] Audio-Oriented Multimodal Machine Comprehension via Dynamic Inter- and Intra-modality Attention

[13] MUFASA: Multimodal Fusion Architecture Search for Electronic Health Records

[14] VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization

[15] FL-MSRE: A Few-Shot Learning based Approach to Multimodal Social Relation Extraction

[16] Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis

[17] Multi-modal Multi-label Emotion Recognition with Heterogeneous Hierarchical Message Passing

[18] Embracing Domain Differences in Fake News: Cross-domain Fake News Detection using Multimodal Data

AAAI 2021 的相关文章

机器学习：基于python微博舆情分析系统+可视化+Django框架 K-means聚类算法（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
15天学会Python深度学习，我是如何办到的？

陆陆续续有同学向我们咨询 Python编程如何上手深度学习怎么学习如果有人能手把手一对一帮帮我就好了我们非常理解初学者的茫然和困惑大量视频书籍广告干扰了大家的判断学习Python和人工智能成为内行人不难为此我们推出了
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
5_机械臂运动学基础_矩阵

上次说的向量空间是为矩阵服务的 1 学科回顾从科技实践中来的数学问题无非分为两类一类是线性问题一类是非线性问题线性问题是研究最久理论最完善的而非线性问题则可以在一定基础上转化为线性问题求解线性变换数域 F 上线性空间V中的变
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金

随机推荐

Java 哈希函数哈希表动态容量链地址法简介+实现

简介哈希函数整型浮点型字符串型 Java 中的hashCode 哈希冲突时间复杂度动态空间处理适用范围实现简介实现哈希表有两个主要的问题一个是解决哈希函数的设计一个是哈希冲突的处理哈希函数键通过哈希函数可以得到一
UVA-1354 天平难题题解答案代码算法竞赛入门经典第二版

GitHub jzplp aoapc UVA Answer 算法竞赛入门经典例题和习题答案刘汝佳第二版这道题需要 1 遍历二叉树的每种构成方式我这里每次把当前所有结点列出然后遍历选取两个组合构成一个新结点原来的结点剔除新结点
17张经典动态图带您看懂电动机运行原理！电机一共有多少种？

电动机电动机是一种旋转式电动机器它将电能转变为机械能它主要包括一个用以产生磁场的电磁铁绕组或分布的定子绕组和一个旋转电枢或转子在定子绕组旋转磁场的作用下其在电枢鼠笼式铝框中有电流通过并受磁场的作用而使其转动这些机器中有些类型可作
php弹窗24小时一次,javascript 24小时弹出一次的代码(利用cookies)_广告代码

function jb51tuitan if getCookie jb51popped 要执行的代码或一些操作 setCookie jb51popped ok 写入cookies表示已经执行过了 alert ok jb51tuitan fu
spring mvc 集成freemarker模板

主要使用到的jar 文件 spring mvc freemarker jar 第一步 spring mvc 集成 freemarker
SQL如何进行帕累托分析？（窗口函数、累计百分比分类）

帕累托分析法是指定决策的统计方法包含按降序排序的列和表示累积总百分比的线条面试题有一张学生成绩表包含3个字段学号课程成绩问题找出每门课程A类和B类的学生判断标准是累计占比 0 60 的记为A类 60 85 记为B类解
GPIO模块功能测试

目录 1 功能描述 2 端口复用 3 如何操作 4 测试代码分析 4 1GPIO VERIFICATION01 GPIO复位值验证 4 2GPIO VERIFICATION02 GPIO读写验证 4 3GPIO VERIFICATION03
WebGL射线拾取模型——八叉树优化

经过前面2篇WebGL射线拾取模型的文章相信大家对射线和模型面片相交的原理已经有所了解那么今天我们再深入探究关于射线拾取的一个问题那就是遍历场景中的所有与射线相交的模型的优化问题首先我们来复习一下射线拾取模型的原理请看下图我们从
ELK 日志系统收集K8s中日志

容器特性给日志采集带来的困难 K8s弹性伸缩性导致不能预先确定采集的目标容器隔离性容器的文件系统与宿主机是隔离导致日志采集器读取日志文件受阻日志按体现方式分类应用程序日志记录体现方式分为两类标准输出输出到控制台使用kube
人工智能算法上市公司,人工智能算法公司排名

人工智能上市公司龙头股票有哪些一科大讯飞 002230 属于人工智能稀缺标的多领域布局苦尽甘来业绩拐点临近二浪潮信息 000977 人工智能基础设施提供商目前具备业界最全CPU服务器产品线三中科曙光 603019 含着金钥
第十二章内中断

引言本书主要讲解硬件中断 12 1 内中断的产生 12 2 中断处理程序 12 3 中断向量表中断向量表在内存中存放对于8086PC机中断向量表指定存放在内存地址0处从内存0000 0000到0000 03FF的1024个单元中存
微信小程序npm构建

步骤一初始化 npm init y 自动生成生成package json文件二 project config js配置项 packNpmManually false packNpmRelationList packageJsonPat
error: No rule to make target ‘...‘. Stop. 解决方案

一 error 二解决方案第一步删除 xxx pro 文件中的 RESOURCES xxx qrc 然后 CTRL S 保存文件第二步重新添加资源文件注文件名不要使用中文以避免未知的错误三环境
类成员函数创建线程

include
iOS--伪后台（安卓与iOS区别）

1 后台机制方面的区别提到后台大家应该会很容易想到安卓的真后台了吧所谓真后台就是像PC一样将应用保留在RAM中当你使用HOME键退出应用程序实际上并没有完全退出而是被系统挂在了后台比如一些聊天软件之所以关闭后依然能够收到
注意力机制详述

学习本部分默认大家对RNN神经网络已经深入理解了这是基础同时理解什么是时间序列尤其RNN的常用展开形式进行画图这个必须理解了这篇文章整理有关注意力机制 Attention Mechanism 的知识主要涉及以下几点内容 1 注意
Django 项目使用 Bootstrap 的导入方式

Django 项目中导入 Bootstrap 是固定的补充 1 Django 项目的 html 文件中必须先写 meta 再引入其他内容并且对于导入 JS 的先后顺序有比较严格的要求补充 2 Django 项目表单中使用POST的方法
C++ 对象模型

C 对象模型虚函数机制实现执行器绑定虚基类机制实现多继承体系中只有一个共享实体非静态数据成员放在 object 之中静态数据成员放在 object 之外静态和非静态成员函数都放在 object 之外每个类会产生一堆指向虚函数
表单--form对象

在Javascript 中页面上的每一对
AAAI 2021

作者孙宇冲单位中国人民大学多模态学习旨在使计算机拥有处理不同来源信息的能力近年来成为了人工智能领域的研究热点多模态学习将不同模态信息进行融合学习不同模态信息之间的关联人类对信息的处理其实也是多模态的如人可以同时利用视觉和听

AAAI 2021

AAAI 2021 的相关文章

随机推荐

热门标签