视听融合综述(一)Audiovisual Fusion: Challenges and New Approaches

2023-11-11

分享一篇视听融合研究综述,2015年发表在Proceedings of the IEEE上。该期刊创刊于1913年,是IEEE最古老的杂志之一。主要刊登一些综述和科学前沿的调查研究(review, survey, and tutorial)不刊载具体的研究成果。本文回顾了至2015年在视听融合方面的研究成果,并讨论了该领域的主要挑战,重点是两种模态的不同步以及训练和测试的问题。

题目:Audiovisual Fusion: Challenges and New Approaches

Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653.

发表时间:2015

作者单位:Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA

权威期刊:Proceedings of the IEEE

原文链接: Audiovisual Fusion: Challenges and New Approaches | IEEE Journals & Magazine | IEEE Xplore


本文内容是该综述的1、2两节,主要内容为特征提取和早中晚期三种融合方法。

目录


▍摘要 ▍

AV融合中的一个重要问题是模态如何相互作用和相互影响。本文将在AV语音处理(尤其是语音识别)的背景下解决此问题,其中一个问题是模态既相互作用,又有时彼此不同步。有时会出现的另一个问题是,尽管在训练时可用,但测试时可能会丢失其中一种模态。我们将从多视图学习领域multiview learning回顾解决该问题的方法,该目标是在利用丰富的多模态培训数据的同时分别学习每种模态的模型或表示。


▍1.INTRODUCTION ▍

【先说多模态的含义和特性】 多模态集成是对多种模态提供的信息的协同使用,以协助系统完成任务。多模态融合是指整合过程中的任何阶段,其实际上是不同信息源的组合。 Multimodal fusion refers to any stage in the integration process

当数据提供冗余和互补redundant and complementary information信息时,数据的集成和融合是有意义的。它可以减少总体不确定性,从而有助于提高系统感知特征的准确性。在某些来源出现错误或故障时,冗余还可以用来提高可靠性。来自多种模态的互补信息允许感知环境中仅使用单独运行的每个个体模态的信息无法感知的特征。由于每个模态的实际运行速度或作为集成过程的一部分可能实现的处理并行性,也可以通过多种模态提供更及时的信息。

【特别地关注视听分析】 AV分析是多模态分析的一种特殊情况,其中输入源是音频和视频。 两种方式相关联并传达互补信息。例如,面部可见度有利于语音感知。在研究关节运动与声道形状和语音声学之间的关系方面,已有大量工作。研究还表明,脸部运动,声道形状和语音声学之间存在很强的相关性。语音产生和感知是双峰的。 McGurk效应已经证明了AV信息在感知语音中的双峰整

【phonemes&visemes这段讲音素和视位素】 音素phoneme是描述语音如何传达语言信息的基本单位。 类似地,在视音频语音处理和人类感知文献[5],[6]中使用的基本视觉上可区分的单元是视位素viseme。 音素捕捉了发音的方式,而视位素捕捉了发音的位置[5],[7]。 尽管对某些音素群进行了很好的定义,但关于将音素精确地分组为视位素尚无普遍共识。

【AV应用场景,研究方向,典型参考文献】 音频和视频融合在一起的应用程序很多,例如语音识别[8] – [15],说话者识别[16],[17],生物特征验证[18] – [23],事件检测[ 24],概念检测[25] – [27],人或物体跟踪[28] – [35],主动说话者定位和跟踪[7],[36] – [40],音乐内容分析[41],会议 细分[42],情感识别[43]-[45],独白检测[46],视频检索[47],人机交互[48],[49],新闻视频中的故事细分[50],视频拍摄检测[51],语音活动检测(VAD)[52]和源分离[53]-[55]。显然,在某些应用中,不仅可以使用视觉发音器,还可以使用面部表情甚至整个身体的发音器。 类似地,在某些应用中,音频(不仅仅是语音信号)与视频信号融合在一起。

【In this paper本文工作和贡献】 在本文中,我们介绍了主要概念并回顾了具有挑战性的AV信息融合问题的最新工作。有很多关于该主题的评论文章(即[10],[22]和[56]-[64]),我们的意图是在这些文章停下来的地方继续我们的评论。

我们提出了在融合这两种模态时遇到的一些挑战,在其他模态融合问题中也遇到了其中的一些挑战。我们讨论并比较了应对此类挑战的不同方法,并为该领域和该领域的未来研究方向提供了重要的观点。我们要解决的这些挑战中的一些挑战是每种模态在不同环境条件下的有效性,换句话说,视音频系统对每种模态的质量,可靠性和置信度的适应性。 the adaptivity of the AV system to the quality, reliability, and confidence of each modality

我们还解决了音频和视频流之间的异步问题,包括不同的感应率以及语音和音频线索之间的自然异步。我们还将回顾该领域的最新进展和方法。特别是,我们专注于将深度视图和多视图学习用于AV信息融合。

本文的结构如下。在第二部分中,我们描述了特征提取步骤和融合类别。在第三部分中,我们讨论了一些主要的融合技术,即支持向量机(SVM),动态贝叶斯网络(DBN),隐马尔可夫模型(HMM)和卡尔曼滤波器。 在第四节中,我们描述了融合音频和视频流的一些挑战。在第五部分中,我们回顾了解决AV融合中的一些挑战所采用的方法,并提出了针对它的两种最新方法,即深度学习和多视图学习。 我们在第六节中得出结论并提供有关该领域未来的评估。


▍2.视听处理AUDIOVISUAL PROCESSING ▍

通常,视音频分析包括两个主要步骤 第一步,从每个模态中提取适当的特征。 此步骤完全取决于所使用的模态类型以及应用。 在第II-A节中,我们概述了从这些模态中提取的针对不同应用的AV特征。在第二步中,整合由模态传达的信息。II-B节讨论了各种融合方法的优缺点。

▶ A. Feature Extraction ◀

【一个简明的音视频特征的概括】

在适当和有效的特征空间中表示模态(即音频和视频)是融合之前的重要一步。

对于音频源,有一些众所周知的代表性功能已在语音和音频研究社区中广泛使用,例如基于频谱的功能,例如梅尔频率倒谱系数(MFCC)[65],[66]和线性预测编码(LPC)[67],音素后部特征[68]和韵律特征[44]。

另一方面,从视频源中找到合适的视觉特征具有挑战性[56]。在大多数视音频应用中,视觉特征是从身体的信息部分(例如嘴和眼区域)中提取的,但通常,它们取决于应用。

提取特定信息的方法也有所不同。例如,在AV语音识别中,虽然通常使用MFCC功能来表示语音[69],但已经考虑了多种方法来提取视觉特征,这些视觉特征可以分为四类:基于图像的,基于运动的,基于几何和基于模型的特征[70]。

AV特征提取系统的一般表示如图1所示。在大多数情况下,在提取视觉特征之后会考虑降维步骤。为了捕获音频和视频流中的时间动态,从新功能中获取了一阶和二阶导数(通过差异实现)。由于通常音频和视频流的速率不同,因此需要插值步骤以相同的速率表示它们。

尽管在大多数情况下,仅在特征提取之后才组合有关模态的信息,但有趣的是,例如在[71]中所做的,在特征提取过程中考虑此信息组合。 我们将在V-C部分中对此进行更多讨论。

图1 音视频特征提取系统


▶ B. Fusion Approaches ◀

【一种比较传统的融合算法分类:早期、晚期、中间、混合融合】 融合可以在不同级别上执行。通过集成或组合来自所有模态的特征,可以在建模过程之前完成特征级别的融合;因此,它被称为早期整合[14]。

另一方面,在决策层,分别对每个模态进行建模,然后对模型的输出或决策进行集成以生成最终决策[72],因此将其称为后期集成。

此外,还有另一种方法处于早期和晚期集成的中间,称为中间集成(在某些文献中,它也被视为早期集成)。 intermediate integration

也有可能通过在两个级别上执行融合来组合这些融合方法中的两种,称为混合方法[73]。 在下文中,将集中于它们的优点和缺点来更详细地描述这些方法。(文中fusion和integration可能是一个意思)

图2 早期融合和晚期融合

1)早期集成

早期集成方法的说明如图2(a)所示。可以看出,首先从这两种模态中提取了适当的特征。 然后,在称为特征集成的过程中,将提取的特征组合为一个特征集。 例如,将输入特征向量堆叠为单个向量是特征整合的最简单形式之一。集成的特征向量将输入到建模过程中,该过程将产生最终决策或输出。

在早期集成中,模态之间的相关性可以在特征级别上找到,并且只需要一个建模过程,与需要更多建模过程单元的其他融合技术相比,这将导致较低的成本和复杂性[57],[72] ]。但是,要使用相同的特征空间类型,就需要转换特征向量并可能对其进行缩放。另一个问题是集成特征向量的大小,这可能会导致在高维特征空间中工作。它会使建模过程更困难,并降低系统的可伸缩性。一些技术,例如主成分分析(PCA)和线性判别分析(LDA)可用于解决此问题[57]。

此外,由于它们的传感速率和处理时间不同,因此不同模态之间可能存在某种异步asynchrony[eɪ'sɪŋkrənɪ]。组合在一起的特征向量应该来自同一时间,因此应考虑一些注意事项以解决此问题[57]。可能值得一提的是,虽然特征集成是早期集成的最常见方式,但有时可以使用一种模态进行特定的初始化或准备,而其余任务仅利用另一种模态来执行。例如,Barnard等[40],对于多个人类说话者的视觉跟踪的应用,使用音频源进行初始化以约束视觉面部检测器的搜索空间。

2)中级集成Intermediate Integration

中级集成技术与早期集成技术非常相似[57]。通过这些方法,将音频和视频特征共同提供给一个建模处理单元。主要区别在于,所利用的建模过程单元是专门为处理多种模态而设计的。 它尝试在考虑每个模态之间的交互时分别对它们进行建模。 与不能将特征与不同模态区分开来的早期集成相比,中间方法会考虑它们之间的差异。

这使这些方法能够处理模态之间的某种程度的异步,并在不同情况下为它们考虑权重。 中间集成的主要困难是选择建模技术的局限性,因为它们应专门针对中间集成过程进行设计[57]。

3)后期集成

后期集成方法的整个过程如图2(b)所示。通过这种方法,对于每种模态,都采用了单独的建模过程,该过程将一种模态的特征作为输入并产生输出决策。这些由决策整合单元进行整合以形成最终结果。此步骤中使用的最直接的技术是加权,求和和投票[57]。如[52]中所述,也可以使用更高级的机器学习算法,例如Adaboost [74]。

在后期集成中,建模过程的输出具有相同的表示形式,并且与早期集成一样,将它们组合起来比组合特征向量更容易。此外,与早期集成技术相比,在决策级别更容易处理异步问题,并且该系统还可以通过模态数量进行扩展。这种方法的另一个优点是,对于每种模态,都可以使用适合该模态的特定技术。例如,在AV语音识别任务中,SVM代表视觉特征的首选建模过程,而HMM则用于语音信号[57]。

后期集成的主要缺点是无法从特征级别的模态关联中受益。此外,由于需要为每个模态进行单独的建模,因此与早期集成相比,后期集成更具挑战性。 【混合集成】 如上所述,每种类型的集成都有其优点和缺点。一些研究建议将这些方法结合起来以从两者的优点中受益[57]。这种方法通常称为混合集成。这样,既可以采用早期集成(可能是中间集成),也可以采用后期集成,然后使用决策集成单元将两个系统的决策组合在一起,以生成最终决策。这样,我们可以同时拥有早期和晚期集成的优势。


▶ C.数据集 ◀

尽管有许多AV数据库,但仍然非常需要为AV应用程序生成适当的数据库。现有数据集均不具有所有所需的特征,例如足够的数据大小,实际可变性realistic variability,标准实验设置和评估措施。此外,尚无公认的标准评估方法,难以对不同特征和融合方法进行比较[22],[57]。

文献中已使用的一些可用AV数据集包括:

  • PETS [75](多峰分析任务,例如对象跟踪)

  • AV16.3 [76](仅音频,仅视频以及AV说话认定位和跟踪)

  • TRECVID [77](用于视频检索,语义视频分析,视频分段,概念检测等不同应用)

  • BIOMET [78](包含面部,语音,指纹,手和签名方式)

  • M2VTS [79](在生物特征识别应用中使用的某些主题的数字音频和视频记录)

  • XM2VTS [80](扩展的M2VTS)

  • VidTIMIT [81](人们引用TIMIT [82]语料库的句子的视频录像)

  • DAVID [83],VALID [84],AVICAR [85](汽车环境中的AV语料库)

  • BANCA [86](用于网络和电子商务应用程序的生物访问控制)和CUAVE [87]。


该综述剩余部分放在《视听融合综述(二)(三)》两篇博文内,感兴趣的朋友可以关注我的博客,或知乎主页:

一 一 - 知乎


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

视听融合综述(一)Audiovisual Fusion: Challenges and New Approaches 的相关文章

随机推荐

  • 2019年中山大学数据科学与计算机学院研究生统考机试

    2019年中山大学数据科学与计算机学院研究生统考机试题目回忆 本文回忆了2019年中山大学数据科学与计算机学院研究生考试机试题目 希望能对以后的同学的学习有所帮助 机试共十道题 1 继承 一共有3个类 animal cat dog cat和
  • ciscn 2022 misc 部分wp

    everlasting night 提示是注意png数据块 然后注意图片通道数据可以用来lsb解码 下载是一张图片 尝试几种方法之后没有太大发现 得到提示于是看了一下stegsolve f78dcd383f1b574b 这里发现了一串可疑字
  • 90、Tensorflow实现分布式学习,多台电脑,多个GPU 异步试学习

    Created on 2017年5月28日 author weizhen import time import tensorflow as tf from tensorflow examples tutorials mnist import
  • Vue 实现左边导航栏且右边显示具体内容(element-ui)

    最终效果图 现在开始进入正题 1 安装element ui npm i element ui S CDN 目前可以通过 unpkg com element ui 获取到最新版本的资源 在页面上引入 js 和 css 文件即可开始使用
  • 探索人工智能

    前言 模型训练是指使用算法和数据对机器学习模型进行参数调整和优化的过程 模型训练一般包含以下步骤 数据收集 数据预处理 模型选择 模型训练 模型评估 超参数调优 模型部署 持续优化 文章目录 前言 数据收集 数据预处理 模型选择 模型训练
  • Tracy 小笔记 Vue - 路由

    Vue Router 路由中有一个非常重要的概念叫路由表 本质上就是一个映射表 决定了数据包的指向 服务器渲染 后端渲染 如 jsp php java 服务器直接生产渲染好对应的 html 页面 返回到客户端进行展示 这种情况下渲染好的页面
  • java实现截图功能

    java实现截图功能 java实现截图 录屏 public static void main String args throws InterruptedException 截取整个屏幕 保存在H盘下 名字为当前时间毫秒值 格式为png T
  • Unity3D-UI--Layout组件

    Layout组件 自动排版 Layout Group Vertical Layout Group 垂直布局 垂直布局组 组件将其子布局元素彼此重叠 它们的高度由各自的最小高度 首选高度和柔性高度决定 具体取决于以下模型 Vertical L
  • Activity之间的跳转的两种实现方法

    概括 在Android当中 Activity的跳转有两种方法 第一个是利用startActivity Intent intent 的方法 第二个则是利用startActivityForResult Intent intent int req
  • QT添加外部动态库

    编译完动态库 将动态库debug文件夹中的 a和 dll拷贝下来 在window中 dll 动态库 lib 静态库 在linux中 so 动态库 a 静态库 在根目录下新建include 并放入其中 同样的把头文件也放入include中 然
  • 图论基本概念

    文章目录 图 相邻 度 简单图 路径 子图 连通 无向图 有向图 本章概述了图论中的一些概念 部分内容来源于 OI Wiki 图 图 Graph 是一个由 点集 Vertex set 和 边集 Edge set 组成的二元组 常用 G V
  • 哈工大深圳计算机水平怎么样,还原一个真实的哈工大!——十问(转载)

    发信人 hiticeberg 千面怪 信区 NewExpress 标 题 还原一个真实的哈工大 十问 发信站 水木社区 Fri May 30 19 37 50 2008 站内 作为哈工大的土著 也许也是目前连续在校时间最长的哈工大学子 在毕
  • [蓝桥杯][2013年第四届真题]剪格子

    一定要好好审题啊 行号和列号跟题意要求的搞反了 结果de到怀疑人生了 这个题给的数据量不大 所以我就放心大胆的在每个中间节点里各开了一个vis标记数组 用来记录每一条广搜路径走过的节点 include
  • 微信小程序使用 scss

    一 在 vscode 中安装 easy sass 扩展 二 在微信开发者工具导入 vscode 安装的 easy sass 扩展 安装完成后会让重新加载扩展 再次打开后就可以看到扩展已经有 easy sass 了 三 修改 easy sas
  • 【雕爷学编程】MicroPython手册之 WiPy 特定端口库 wipy.machine.I2C.readfrom()

    MicroPython是为了在嵌入式系统中运行Python 3编程语言而设计的轻量级版本解释器 与常规Python相比 MicroPython解释器体积小 仅100KB左右 通过编译成二进制Executable文件运行 执行效率较高 它使用
  • 用logrotate拆分nginx日志

    被遗忘的Logrotate
  • uban服务器系统,Web服务器-并发服务器-Epoll(3.4.5)

    1 介绍 epoll是一种解决方案 nginx就是用的这个 中心思想 不要再使用多进程 多线程了 使用单进程 单线程去实现并发 在上面博客实现的代码中使用过的轮询去查看套接字有没有数据 而epoll是主动通知 当使用多进程的时候 是复制一份
  • osg学习(六十九)平移、旋转、缩放实现过程

    1 主程序 osg PositionAttitudeTransform patTransform new osg PositionAttitudeTransform patTransform gt setPosition l2wMatrix
  • SuperSocket教程八:通过服务器计划将数据推送到客户端

    前面我们知道了如何使用客户端去连接服务端 然后给服务端发送消息 根据消息的关键字服务端进行返回等等 但是那都是来自客户端的请求 我们服务端如何去主动给客户端发消息呢 这些逻辑到哪里去写呢 这里我写了一份代码供大家参考 官方文档说了 建议se
  • 视听融合综述(一)Audiovisual Fusion: Challenges and New Approaches

    分享一篇视听融合研究综述 2015年发表在Proceedings of the IEEE上 该期刊创刊于1913年 是IEEE最古老的杂志之一 主要刊登一些综述和科学前沿的调查研究 review survey and tutorial 不刊