视听融合综述（一）Audiovisual Fusion: Challenges and New Approaches

2023-11-11

分享一篇视听融合研究综述，2015年发表在Proceedings of the IEEE上。该期刊创刊于1913年，是IEEE最古老的杂志之一。主要刊登一些综述和科学前沿的调查研究（review, survey, and tutorial）不刊载具体的研究成果。本文回顾了至2015年在视听融合方面的研究成果，并讨论了该领域的主要挑战，重点是两种模态的不同步以及训练和测试的问题。

题目：Audiovisual Fusion: Challenges and New Approaches

Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653.

发表时间：2015

作者单位：Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA

权威期刊：Proceedings of the IEEE

原文链接： Audiovisual Fusion: Challenges and New Approaches | IEEE Journals & Magazine | IEEE Xplore

本文内容是该综述的1、2两节，主要内容为特征提取和早中晚期三种融合方法。

▍摘要 ▍

AV融合中的一个重要问题是模态如何相互作用和相互影响。本文将在AV语音处理（尤其是语音识别）的背景下解决此问题，其中一个问题是模态既相互作用，又有时彼此不同步。有时会出现的另一个问题是，尽管在训练时可用，但测试时可能会丢失其中一种模态。我们将从多视图学习领域multiview learning回顾解决该问题的方法，该目标是在利用丰富的多模态培训数据的同时分别学习每种模态的模型或表示。

▍1.INTRODUCTION ▍

【先说多模态的含义和特性】多模态集成是对多种模态提供的信息的协同使用，以协助系统完成任务。多模态融合是指整合过程中的任何阶段，其实际上是不同信息源的组合。 Multimodal fusion refers to any stage in the integration process

当数据提供冗余和互补redundant and complementary information信息时，数据的集成和融合是有意义的。它可以减少总体不确定性，从而有助于提高系统感知特征的准确性。在某些来源出现错误或故障时，冗余还可以用来提高可靠性。来自多种模态的互补信息允许感知环境中仅使用单独运行的每个个体模态的信息无法感知的特征。由于每个模态的实际运行速度或作为集成过程的一部分可能实现的处理并行性，也可以通过多种模态提供更及时的信息。

【特别地关注视听分析】 AV分析是多模态分析的一种特殊情况，其中输入源是音频和视频。两种方式相关联并传达互补信息。例如，面部可见度有利于语音感知。在研究关节运动与声道形状和语音声学之间的关系方面，已有大量工作。研究还表明，脸部运动，声道形状和语音声学之间存在很强的相关性。语音产生和感知是双峰的。 McGurk效应已经证明了AV信息在感知语音中的双峰整

【phonemes&visemes这段讲音素和视位素】音素phoneme是描述语音如何传达语言信息的基本单位。类似地，在视音频语音处理和人类感知文献[5]，[6]中使用的基本视觉上可区分的单元是视位素viseme。音素捕捉了发音的方式，而视位素捕捉了发音的位置[5]，[7]。尽管对某些音素群进行了很好的定义，但关于将音素精确地分组为视位素尚无普遍共识。

【AV应用场景，研究方向，典型参考文献】音频和视频融合在一起的应用程序很多，例如语音识别[8] – [15]，说话者识别[16]，[17]，生物特征验证[18] – [23]，事件检测[ 24]，概念检测[25] – [27]，人或物体跟踪[28] – [35]，主动说话者定位和跟踪[7]，[36] – [40]，音乐内容分析[41]，会议细分[42]，情感识别[43]-[45]，独白检测[46]，视频检索[47]，人机交互[48]，[49]，新闻视频中的故事细分[50]，视频拍摄检测[51]，语音活动检测（VAD）[52]和源分离[53]-[55]。显然，在某些应用中，不仅可以使用视觉发音器，还可以使用面部表情甚至整个身体的发音器。类似地，在某些应用中，音频（不仅仅是语音信号）与视频信号融合在一起。

【In this paper本文工作和贡献】在本文中，我们介绍了主要概念并回顾了具有挑战性的AV信息融合问题的最新工作。有很多关于该主题的评论文章（即[10]，[22]和[56]-[64]），我们的意图是在这些文章停下来的地方继续我们的评论。

我们提出了在融合这两种模态时遇到的一些挑战，在其他模态融合问题中也遇到了其中的一些挑战。我们讨论并比较了应对此类挑战的不同方法，并为该领域和该领域的未来研究方向提供了重要的观点。我们要解决的这些挑战中的一些挑战是每种模态在不同环境条件下的有效性，换句话说，视音频系统对每种模态的质量，可靠性和置信度的适应性。 the adaptivity of the AV system to the quality, reliability, and confidence of each modality

我们还解决了音频和视频流之间的异步问题，包括不同的感应率以及语音和音频线索之间的自然异步。我们还将回顾该领域的最新进展和方法。特别是，我们专注于将深度视图和多视图学习用于AV信息融合。

本文的结构如下。在第二部分中，我们描述了特征提取步骤和融合类别。在第三部分中，我们讨论了一些主要的融合技术，即支持向量机（SVM），动态贝叶斯网络（DBN），隐马尔可夫模型（HMM）和卡尔曼滤波器。在第四节中，我们描述了融合音频和视频流的一些挑战。在第五部分中，我们回顾了解决AV融合中的一些挑战所采用的方法，并提出了针对它的两种最新方法，即深度学习和多视图学习。我们在第六节中得出结论并提供有关该领域未来的评估。

▍2.视听处理AUDIOVISUAL PROCESSING ▍

通常，视音频分析包括两个主要步骤第一步，从每个模态中提取适当的特征。此步骤完全取决于所使用的模态类型以及应用。在第II-A节中，我们概述了从这些模态中提取的针对不同应用的AV特征。在第二步中，整合由模态传达的信息。II-B节讨论了各种融合方法的优缺点。

▶ A. Feature Extraction ◀

【一个简明的音视频特征的概括】

在适当和有效的特征空间中表示模态（即音频和视频）是融合之前的重要一步。

对于音频源，有一些众所周知的代表性功能已在语音和音频研究社区中广泛使用，例如基于频谱的功能，例如梅尔频率倒谱系数（MFCC）[65]，[66]和线性预测编码（LPC）[67]，音素后部特征[68]和韵律特征[44]。

另一方面，从视频源中找到合适的视觉特征具有挑战性[56]。在大多数视音频应用中，视觉特征是从身体的信息部分（例如嘴和眼区域）中提取的，但通常，它们取决于应用。

提取特定信息的方法也有所不同。例如，在AV语音识别中，虽然通常使用MFCC功能来表示语音[69]，但已经考虑了多种方法来提取视觉特征，这些视觉特征可以分为四类：基于图像的，基于运动的，基于几何和基于模型的特征[70]。

AV特征提取系统的一般表示如图1所示。在大多数情况下，在提取视觉特征之后会考虑降维步骤。为了捕获音频和视频流中的时间动态，从新功能中获取了一阶和二阶导数（通过差异实现）。由于通常音频和视频流的速率不同，因此需要插值步骤以相同的速率表示它们。

尽管在大多数情况下，仅在特征提取之后才组合有关模态的信息，但有趣的是，例如在[71]中所做的，在特征提取过程中考虑此信息组合。我们将在V-C部分中对此进行更多讨论。

图1 音视频特征提取系统

▶ B. Fusion Approaches ◀

【一种比较传统的融合算法分类：早期、晚期、中间、混合融合】融合可以在不同级别上执行。通过集成或组合来自所有模态的特征，可以在建模过程之前完成特征级别的融合；因此，它被称为早期整合[14]。

另一方面，在决策层，分别对每个模态进行建模，然后对模型的输出或决策进行集成以生成最终决策[72]，因此将其称为后期集成。

此外，还有另一种方法处于早期和晚期集成的中间，称为中间集成（在某些文献中，它也被视为早期集成）。 intermediate integration

也有可能通过在两个级别上执行融合来组合这些融合方法中的两种，称为混合方法[73]。在下文中，将集中于它们的优点和缺点来更详细地描述这些方法。（文中fusion和integration可能是一个意思）

图2 早期融合和晚期融合

1）早期集成

早期集成方法的说明如图2（a）所示。可以看出，首先从这两种模态中提取了适当的特征。然后，在称为特征集成的过程中，将提取的特征组合为一个特征集。例如，将输入特征向量堆叠为单个向量是特征整合的最简单形式之一。集成的特征向量将输入到建模过程中，该过程将产生最终决策或输出。

在早期集成中，模态之间的相关性可以在特征级别上找到，并且只需要一个建模过程，与需要更多建模过程单元的其他融合技术相比，这将导致较低的成本和复杂性[57]，[72] ]。但是，要使用相同的特征空间类型，就需要转换特征向量并可能对其进行缩放。另一个问题是集成特征向量的大小，这可能会导致在高维特征空间中工作。它会使建模过程更困难，并降低系统的可伸缩性。一些技术，例如主成分分析（PCA）和线性判别分析（LDA）可用于解决此问题[57]。

此外，由于它们的传感速率和处理时间不同，因此不同模态之间可能存在某种异步asynchrony[eɪ'sɪŋkrənɪ]。组合在一起的特征向量应该来自同一时间，因此应考虑一些注意事项以解决此问题[57]。可能值得一提的是，虽然特征集成是早期集成的最常见方式，但有时可以使用一种模态进行特定的初始化或准备，而其余任务仅利用另一种模态来执行。例如，Barnard等[40]，对于多个人类说话者的视觉跟踪的应用，使用音频源进行初始化以约束视觉面部检测器的搜索空间。

2）中级集成Intermediate Integration

中级集成技术与早期集成技术非常相似[57]。通过这些方法，将音频和视频特征共同提供给一个建模处理单元。主要区别在于，所利用的建模过程单元是专门为处理多种模态而设计的。它尝试在考虑每个模态之间的交互时分别对它们进行建模。与不能将特征与不同模态区分开来的早期集成相比，中间方法会考虑它们之间的差异。

这使这些方法能够处理模态之间的某种程度的异步，并在不同情况下为它们考虑权重。中间集成的主要困难是选择建模技术的局限性，因为它们应专门针对中间集成过程进行设计[57]。

3）后期集成

后期集成方法的整个过程如图2（b）所示。通过这种方法，对于每种模态，都采用了单独的建模过程，该过程将一种模态的特征作为输入并产生输出决策。这些由决策整合单元进行整合以形成最终结果。此步骤中使用的最直接的技术是加权，求和和投票[57]。如[52]中所述，也可以使用更高级的机器学习算法，例如Adaboost [74]。

在后期集成中，建模过程的输出具有相同的表示形式，并且与早期集成一样，将它们组合起来比组合特征向量更容易。此外，与早期集成技术相比，在决策级别更容易处理异步问题，并且该系统还可以通过模态数量进行扩展。这种方法的另一个优点是，对于每种模态，都可以使用适合该模态的特定技术。例如，在AV语音识别任务中，SVM代表视觉特征的首选建模过程，而HMM则用于语音信号[57]。

后期集成的主要缺点是无法从特征级别的模态关联中受益。此外，由于需要为每个模态进行单独的建模，因此与早期集成相比，后期集成更具挑战性。【混合集成】如上所述，每种类型的集成都有其优点和缺点。一些研究建议将这些方法结合起来以从两者的优点中受益[57]。这种方法通常称为混合集成。这样，既可以采用早期集成（可能是中间集成），也可以采用后期集成，然后使用决策集成单元将两个系统的决策组合在一起，以生成最终决策。这样，我们可以同时拥有早期和晚期集成的优势。

▶ C.数据集 ◀

尽管有许多AV数据库，但仍然非常需要为AV应用程序生成适当的数据库。现有数据集均不具有所有所需的特征，例如足够的数据大小，实际可变性realistic variability，标准实验设置和评估措施。此外，尚无公认的标准评估方法，难以对不同特征和融合方法进行比较[22]，[57]。

文献中已使用的一些可用AV数据集包括：

PETS [75]（多峰分析任务，例如对象跟踪）
AV16.3 [76]（仅音频，仅视频以及AV说话认定位和跟踪）
TRECVID [77]（用于视频检索，语义视频分析，视频分段，概念检测等不同应用）
BIOMET [78]（包含面部，语音，指纹，手和签名方式）
M2VTS [79]（在生物特征识别应用中使用的某些主题的数字音频和视频记录）
XM2VTS [80]（扩展的M2VTS）
VidTIMIT [81]（人们引用TIMIT [82]语料库的句子的视频录像）
DAVID [83]，VALID [84]，AVICAR [85]（汽车环境中的AV语料库）
BANCA [86]（用于网络和电子商务应用程序的生物访问控制）和CUAVE [87]。

该综述剩余部分放在《视听融合综述（二）（三）》两篇博文内，感兴趣的朋友可以关注我的博客，或知乎主页：

一一 - 知乎

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

视听融合