浅谈视觉与语言中的多模态研究,究竟都研究什么

2023-05-16

前言

随着人工智能的整体进步,计算机视觉和自然语言处理已经有了巨大的。有了如此强大的算法和自主系统的综合能力,就需要合并知识领域,实现跨模态兼容,视觉语言(VisLang)研究具有更复杂的任务和交互式和可解释系统的需要。这已经浮出了各种具有挑战性的任务,如视觉语言导航,机器人的自主功能与环境的全面了解,视觉字幕生成丰富和有意义的语言描述等等,本篇就浅谈视觉语言多模态研究究竟在研究什么。


VisLang任务总结

 


1.Generation tasks

Visual Question Answering (VQA):视觉问题回答,VQA表示对给定视觉输入(图像/视频)的问题正确提供答案的任务。为了获得准确的性能,根据所提出的问题从图像(或视频)中推断出逻辑隐含内容是至关重要的。
Visual Captioning (VC):视觉字幕,视觉字幕是一种以自动的方式为给定的视觉(图像或视频)输入生成语法和语义上适当的描述的任务。为视觉输入生成解释性和相关的字幕不仅需要丰富的语言知识,还需要对视觉输入中出现的实体、场景及其交互有连贯的理解。
Visual Commonsense Reasoning (VCR):视觉常识性推理,视觉常识推理是通过机器在看到图像时推断认知理解和常识信息的任务。它要求机器正确地回答有关图像的问题以及相关的理由。
Visual Generation (VG):视觉生成,视觉生成是从给定的文本输入中生成视觉输出(图像或视频)的任务。它通常需要对语义信息进行良好的理解,并据此生成相关的和上下文丰富的连贯的视觉形成。

 


2.Classification tasks

Multimodal Affective Computing (MAC):多模态情感计算,多模态情感计算包括结合来自多种信号的线索,如文本、音频、视频和描绘表情、手势等的图像,以解释相关的情感活动,类似于人类解释情感的方式。
Natural Language for Visual Reasoning(NLVR):视频推理的自然语言
 

 3.Retrieval tasks(检索任务)

Visual retrieval(VR):视觉检索, 文本-图像检索是一项跨模态的任务,需要对语言域和视觉域进行理解,并采用适当的匹配策略。这样做的目的是根据文本描述从更大的图像库中提取最相关的图像。 


4.Other tasks

 

Vision-Language Navigation (VLN):视觉语言导航,视觉语言导航是一种基于语言指令的主体运动的基础自然语言任务。这通常被视是一项序列到序列转编码的任务,类似于VQA。然而,这两者之间有明显的区别。VLN通常有更长的序列,问题的动态完全变化,因为它是一个实时演化的任务。

Multimodal Machine Translation (MMT):多模态机器翻译,多模态机器翻译是翻译和描述生成的双重任务。它包括将描述从一种语言翻译成另一种语言,并从其他形式(比如视频或音频)中获取额外信息。

总结

本篇记录了Visual-Language的多模态研究都有什么大类,并且每个大类里面又分为什么任务,并且记录了一些子任务的缩写代表什么意思,方便以后再看到相似的缩写词能够明白是在做什么。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

浅谈视觉与语言中的多模态研究,究竟都研究什么 的相关文章

随机推荐

  • Bug 记录

    Bug记录 CocosCreator打包出现 Error xff1a Program type already present android support v4 os ResultReceiver MyResultReceiver 解决
  • I2C通信

    I2 C 芯片间 总线接口连接微控制器和串行 I 2 C 总线 它提供多主机功能 xff0c 控制所有 I 2 C 总线特定的 时序 协议 仲裁和定时 1 xff0c 物理层 1 IIC是一种两线串行的通信方式 xff0c SCL xff0
  • 使用Mybatis-Plus代码生成器的报错解决

    使用Mybatis Plus的同学 xff0c 在使用代码生成器的时候不知道有没有遇到过这个问题 xff1a 21 36 23 829 main DEBUG com baomidou mybatisplus generator AutoGe
  • Debian之安装完成后找不到命令解决办法

    1 修改配置文件 bashrc vim root bashrc export PATH 61 PATH usr sbin 2 使配置文件生效 source root bashrc
  • 相机标定、双目相机标定(原理)、三维重建效果展示

    1 相机标定的目的 xff1a xff08 1 xff09 通过单目相机标定分别求出左右相机的内参数和外参数 xff08 2 xff09 矫正由于镜头畸变造成的图片的变形 xff0c 例如 xff0c 现实中的直线 xff0c 拍摄成图像后
  • mac系统做openstack qcow2/raw镜像

    1 vmware安装出来虚拟机 xff08 操作系统不拆分 xff09 2 zhangjinyudeMacBook Pro Asianux vmwarevm zhangjinyu ls lh total 2820216 rw 1 zhang
  • 使用 Chrome 获取 Cookie 的数据

    Chrome 浏览器自带的开发功能相当强大 xff0c 这里只使用它的抓包功能 一 在浏览器中打开目标网站并登录 xff0c 进入目标页面 二 在 Chrome 浏览器下方的开发工具中单击 Network 标签页 按 F5 键 xff0c
  • 后台开发SQL技术总结

    一 字符串截取 1 substring str pos 用法 从字符串的第 4 个字符位置开始取 xff0c 直到结束 mysql gt select substring 39 example com 39 4 43 43 substrin
  • 论文记录:图像描述技术综述

    文章目录 前言 一 什么是image caption xff1f 二 基于深度学习的图像描述方法 1 基于编码器 解码器的方法 2 基于注意力机制的方法 3 基于生成对抗网络的方法 4 基于强化学习的方法 5 基于密集描述的方法 总结 前言
  • 一个接口有多个实现类

    如果一个接口有多个实现类 xff0c 在Controller层注入后调用 xff0c 怎么知道调用的是接口的哪个方法呢 xff1f 经过一番测试 和查找资料 终于找到了结果 2 0一个接口对应多个实现类 一个接口对应对个实现类 xff0c
  • c/c++使用libcurl库做http客户端及封装(HTTP_GET和HTTP_POST)

    由于项目需求需要发送http post去请求数据 xff0c 所以上网去寻找了一些发送http请求的方法 xff0c 发现libcurl较为常用 xff0c 然后根据官网上的例子 xff0c 对libcurl做了一些简单的封装 xff0c
  • (医学三维重建)MATLAB体绘制算法:多层面重建(MPR)

    xff08 医学三维重建 xff09 MATLAB体绘制算法 xff1a 多层面重建 xff08 MPR xff09 算法原理代码实现测试结果其他 by HPC ZY 算法原理 体绘制中比较特殊的一种 xff0c 因为它的输出是各种切面 就
  • Qt各个类之间继承关系

  • QGC -- 配置相机参数数据流说明(1)

    一 相关配置文件及对应画面 1 界面GeneralSettings qml 2 Video SettingsGroup json对应界面如下 xff1a span class token punctuation span span clas
  • ubuntu18.04 Intel Realsense T265与Realsense D435i 使用教程

    主要包括 xff1a realsense sdk驱动安装与ros包安装编译D435i与t256相机使用多个相机联合使用 官网链接 xff1a https github com IntelRealSense realsense roshttp
  • 2023年第八届团队程序设计天梯赛选拔校赛(三)题解

    文章目录 7 1 认识时钟7 2 修剪灌木7 3 求和运算7 4 合并数组7 5 骰子游戏7 6 字符串最大跨距7 7 上台阶7 8 A B7 9 括号匹配7 10 列出连通集7 12 哲哲打游戏7 13 喊山 标号标题分数提交通过率7 1
  • 学习挖掘机和程序员哪个好

    guanghuacheng guanghuacheng 等 级 xff1a 结帖率 xff1a 0 00 楼主发表于 xff1a 2011 04 14 16 57 13 快要高考了 学习成绩一般 不想上了 家里让去学挖掘机 我不想去 要想培
  • 我的2014作的一手好死,2015求轻虐

    真的好想上来开头就写 新的一年 xff0c 全新的自己 xff0c 但是这样自欺欺人的话我还是别说了 xff0c 省得一大批损友又来吐嘈我 2015年希望找到自己的另一半这样的话我也不想再提了 xff0c 因为这样写了两年 依旧单身 xff
  • 织梦后台登陆不上提示验证码不正确

    1 密码明明正确的 xff0c 却无法登陆后台管理 解答 xff1a 此外 xff0c 不管是新人 xff0c 还是phper xff0c 都要注意的是 xff1a 用户名和密码只能由 a z A Z 64 这些字符组成 xff0c 不能是
  • 浅谈视觉与语言中的多模态研究,究竟都研究什么

    前言 随着人工智能的整体进步 xff0c 计算机视觉和自然语言处理已经有了巨大的 有了如此强大的算法和自主系统的综合能力 xff0c 就需要合并知识领域 xff0c 实现跨模态兼容 xff0c 视觉语言 VisLang 研究具有更复杂的任务