Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

2023-11-08

目录

1.介绍(introduction)

2.历史回顾(review)

3.表示(representation)

4.映射(Translation/Mapping)

5.对齐(Alignment)

6.融合(Fusion )

7.联合学习(Co-learning)

8.结论(conclusion)


以下是本人每一章节整理的笔记:

1.介绍(introduction)

论文总体介绍了多模态的五个方向/挑战:表示(representation)、映射(Translation)、对齐(Alignment)、融合(Fusion )、联合学习(Co-learning)。

2.历史回顾(review)

对多模态应用领域进行了简单历史回顾:视听语音识别、多媒体内容检索、理解人类行为等方向应用进行简单的描述。

以下部分就开始对五个挑战/方向进行描述:

3.表示(representation)

定义:就是找到多模态信息的统一表示,在计算机中一般是向量或张量

      表示方法               定义     面临困难   实现方法      适用情景      应用领域

 联合表(joint)

将各个模态的数据源映射到同一个空间中进行表示

1.如何把不同模态的数据结合起来

2.如何处理不同层(level)的噪音

3.如何处理丢失的数据

神经网络

概率图模型

Sequential模型
输入所有模态数据来得出结果,如输入语音和图片来得出识别结果 视听语音识别、多模态手势识别

     协同表示

(coordinated)
分别将各模态投影到独立的空间中表示,但是这些空间有约束关系

相似度模型

结构化模型
输入一种模态来得出结果,如输入一张狗的图片,输出“狗”的文本 多模态检索和翻译、grounding、零样本学习

4.映射(Translation/Mapping)

定义:映射就是把一个模态的信息映射成另一个模态的信息

映射方法 定义 面临的困难 实现方法 应用领域

基于例子模型

(example-based)
在多模态之间建立字典,形成对应关系 由于答案通常非常开放和主观,难以实现评估,如一张图片的描述文字可以有多种

基于检索模型

Combination-based模型

媒体字幕生成

视频描述

文本生成图片

生成式模型

(generative)
通过训练,让模型产生映射能力

基于语法模型

编码解码模型

连续生成模型

 

5.对齐(Alignment)

定义:寻找多种模态的子成分之间的关系和对应,如图片中的狗对齐文本中的狗

对齐方法                  定义           面临的困难     实现方法

显式对齐

(explicit)
显式对齐就是对齐任务的子结构,如菜谱步骤和视频的对齐

1.很少有显式对齐标注的数据集

2.在模态之间设置相似度指标很困难

3.存在多种对应关系以及不是每种模态的元素在另一模态都有对应

无监督方法

(弱)监督方法

隐式对齐

(implicit)
隐式对齐用作另一个任务的中间步骤,如文本检索图像,单词和图像区域的对齐

图模型

神经网络

6.融合(Fusion )

定义:将多个模态的信息整合到一起来预测结果

  融合方法     定义     面临的困难  实现方法      适用场景     应用领域
无模型方法 不依赖与某个特定的机器学习算法

1.信号可能不是时序对齐的(密集连续的信号和稀疏的事件),比如一段视频只对应一个单词

2.每种模态在不同时间点可能会出现不同类型和不同层次的噪音

特征融合

决策融合

混合融合
它们几乎可以使用任何单模分类器或回归器来实现

多模态说话者(speaker)识别

多媒体事件检测
基于模型的方法 显式的在构造中完成融合

多核学习

图模型

神经网络
在数据量有限或者模型的可解释性很重要的时候,多核学习和图模型更好

物标分类

表情识别

视听语音识别

7.联合学习(Co-learning)

定义:通过数据源丰富的模态来辅助数据源稀少的模态进行学习

   按数据分类                定义           实现方法      应用领域
平行数据 来自相同的数据集,实例之间有直接的对应关系

Co-training

Transfer learning

视觉分类

动作识别

视听语音识别

语义相似度估计
非平行数据 来自不同的数据集,没有重叠的实例,但在一般类别或概念重叠

Transfer learning

Conceptual grounding

Zero shot learning
混合数据 实例或概念由第三种模式或数据集连接 Bridging

8.结论(conclusion)

作者在结尾讲到,以前对融合这个方向做了很长时间研究,但是近段时间研究者们更热衷表示和映射这两个方向

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述 的相关文章

随机推荐

  • SpringBoot之CommandLineRunner接口和ApplicationRunner接口

    我们在开发中可能会有这样的情景 需要在容器启动的时候执行一些内容 比如读取配置文件 数据库连接之类的 SpringBoot给我们提供了两个接口来帮助我们实现这种需求 这两个接口分别为CommandLineRunner和Application
  • SQL技巧:如何统计博客每天的总点击量和每天的总点击人数

    最近由于工作安排 需要统计一篇火爆的博客每天的总点击量和每天的总点击人数 其实主要考验的就是编写SQL的能力 这里我们需要用到 GROUP BY 和 COUNT关键字 关于这2个关键字的用法 网上有很多 这里不再赘述 分组统计每天的总点击量
  • Qt之QtSoapHttpTransport 访问WebService

    简述 Web Service技术 能使得运行在不同机器上的不同应用无须借助附加的 专门的第三方软件或硬件就可相互交换数据或集成 依据Web Service规范实施的应用之间 无论它们所使用的语言 平台或内部协议是什么 都可以相互交换数据 Q
  • win10 安装mingw 使用makefile

    下载了一个新代码 里面有 h c 和 Makefile文件 说明文件中写道先编译 compiling Type make in a shell 在控制台上输入make 首先win r打开控制台 输入cmd 输入e 回车 cd github
  • mybatis查询返回空,sql数据库执行有数据

    需要编写一个统计功能 在Navicat Premium里调整好sql 然后编写后台代码 controller service serviceImpl dao 在serviceImpl 上添加 Service 注解 在dao 添加 Repos
  • 【测试 3】三、软件测试方法

    4 软件测试方法 包括白盒测试 灰盒测试 黑盒测试 静态测试 动态测试 手动测试 自动测试等 学习目标 熟悉白盒测试方法 掌握黑盒测试方法 掌握黑盒测试用例设计的方法 等价类划分法 边界值分析法 因果 图分析法 判定表分析法 正交试验法等
  • 图像特征提取三大算法:HOG特征,LBP特征,Haar特征

    一 HOG特征 from http dataunion org 20584 html 1 HOG特征 方向梯度直方图 Histogram of Oriented Gradient HOG 特征是一种在计算机视觉和图像处理中用来进行物体检测的
  • Intellij IDEA运行报Command line is too long的解决办法

    报错信息大概如下 Error running xxx Command line is too long Shorten command line for xxx or also for Application default configu
  • leet116. 每个节点的右向指针

    题目 给定一个二叉树 struct TreeLinkNode TreeLinkNode left TreeLinkNode right TreeLinkNode next 填充他的每个 next 下一个 指针 让这个指针指向其下一个右侧节点
  • Mybatis-Plus-【通俗易懂全讲解】

    Mybatis Plus 简介 MyBatis Plus opens new window 简称 MP 是一个 MyBatis opens new window 的增强工具 在 MyBatis 的基础上只做增强不做改变 为简化开发 提高效率
  • 08-go mod和vendor

    文章目录 1 go mod 1 1 创建项目 1 2 mod初始化 1 3 重新构建依赖 1 4 编译 2 vendor 2 1 拷贝依赖 2 2 使用vendor目录编译 1 go mod 1 1 创建项目 创建一个目录 root liu
  • QT中私有公有化(Q_DECLARE_PUBLIC Q_DECLARE_PRIVATE)原理小DEMO

    结果 b ljtcnt 8889 b ljtcnt 1457 代码如下 DrawToolButton h ifndef DrawToolButton H define DrawToolButton H include
  • CSDN中发布文章时上传图片上传失败的问题

    多是与搜狗输入法有关联 解决办法 在需要上传图片的时候切换到其他的输入法即可正常上传
  • Python中常用的正则表达式

    正则表达式是对字符串操作的一种逻辑公式 就是用事先定义好的一些特定字符 及这些字符的组合 组成一个 规则字符串 这个 规则字符串 用来表达对字符串的一种过滤逻辑 非python独有 但是python的re模块提供了实现 在python中写正
  • python实战-JSON形式爬虫-批量爬取图片并下载

    文章目录 一 前言 二 思路 1 网站返回内容 2 url分页结构 3 根据请求快速构造代码 三 具体代码的实现 四 总结 一 前言 上一篇文章已经对html形式的爬虫进行实战 批量爬取电影下载链接 接下来将实战json形式爬虫 批量爬取并
  • Java环境配置

    文章目录 windows环境 linux环境 yum安装 压缩包安装 首先需官网下载所需版本jdk 注意与机器对应 官网下载地址 https www oracle com technetwork cn java javase downloa
  • 时间序列--平滑+特征工程

    https machinelearningmastery com moving average smoothing for time series forecasting python 平滑的希望是消除噪声 更好地揭示潜在的因果过程的信号
  • [mpeg4]mpeg4码流分析

    基于内容的AV编码 以前AV信息被看作纯粹的数据 编码时没有结合自身包含的内容 例如视频序列被认为是象素的组合 MPEG 4采用了对象的概念 不同的数据源被视作不同的对象 分别编码 数据的接收者不再是被动的 他可以对不同的对象进行自己的操作
  • 特征工程和多项式回归

    特征工程的定义 特征工程 Feature Engineering 特征工程是将原始数据转化成更好的表达问题本质的特征的过程 使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度 特征工程简单讲就是发现对因变量y有明显影响作用的特征
  • Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

    目录 1 介绍 introduction 2 历史回顾 review 3 表示 representation 4 映射 Translation Mapping 5 对齐 Alignment 6 融合 Fusion 7 联合学习 Co lea