浅谈视觉与语言中的多模态研究，究竟都研究什么

2023-05-16

前言

随着人工智能的整体进步，计算机视觉和自然语言处理已经有了巨大的。有了如此强大的算法和自主系统的综合能力，就需要合并知识领域，实现跨模态兼容，视觉语言(VisLang)研究具有更复杂的任务和交互式和可解释系统的需要。这已经浮出了各种具有挑战性的任务，如视觉语言导航，机器人的自主功能与环境的全面了解，视觉字幕生成丰富和有意义的语言描述等等，本篇就浅谈视觉语言多模态研究究竟在研究什么。

VisLang任务总结

1.Generation tasks

Visual Question Answering (VQA)：视觉问题回答，VQA表示对给定视觉输入（图像/视频）的问题正确提供答案的任务。为了获得准确的性能，根据所提出的问题从图像（或视频）中推断出逻辑隐含内容是至关重要的。

Visual Captioning (VC)：视觉字幕，视觉字幕是一种以自动的方式为给定的视觉（图像或视频）输入生成语法和语义上适当的描述的任务。为视觉输入生成解释性和相关的字幕不仅需要丰富的语言知识，还需要对视觉输入中出现的实体、场景及其交互有连贯的理解。

Visual Commonsense Reasoning (VCR)：视觉常识性推理，视觉常识推理是通过机器在看到图像时推断认知理解和常识信息的任务。它要求机器正确地回答有关图像的问题以及相关的理由。

Visual Generation (VG)：视觉生成，视觉生成是从给定的文本输入中生成视觉输出（图像或视频）的任务。它通常需要对语义信息进行良好的理解，并据此生成相关的和上下文丰富的连贯的视觉形成。

2.Classification tasks

Multimodal Affective Computing (MAC)：多模态情感计算，多模态情感计算包括结合来自多种信号的线索，如文本、音频、视频和描绘表情、手势等的图像，以解释相关的情感活动，类似于人类解释情感的方式。

Natural Language for Visual Reasoning（NLVR）：视频推理的自然语言

3.Retrieval tasks（检索任务）

Visual retrieval（VR）：视觉检索， 文本-图像检索是一项跨模态的任务，需要对语言域和视觉域进行理解，并采用适当的匹配策略。这样做的目的是根据文本描述从更大的图像库中提取最相关的图像。

4.Other tasks

Vision-Language Navigation (VLN)：视觉语言导航，视觉语言导航是一种基于语言指令的主体运动的基础自然语言任务。这通常被视是一项序列到序列转编码的任务，类似于VQA。然而，这两者之间有明显的区别。VLN通常有更长的序列，问题的动态完全变化，因为它是一个实时演化的任务。

Multimodal Machine Translation (MMT)：多模态机器翻译，多模态机器翻译是翻译和描述生成的双重任务。它包括将描述从一种语言翻译成另一种语言，并从其他形式(比如视频或音频)中获取额外信息。

总结

本篇记录了Visual-Language的多模态研究都有什么大类，并且每个大类里面又分为什么任务，并且记录了一些子任务的缩写代表什么意思，方便以后再看到相似的缩写词能够明白是在做什么。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)