《Graph Neural Networks Foundations,Frontiers and Applications》第一部分第一章第1.2.2节翻译和解读

2023-11-16

书名：《Graph Neural Networks Foundations,Frontiers and Applications》(图神经网络的基础、前沿和应用)

出版社：Springer Berlin Heidelberg

作者：Lingfei Wu · Peng Cui · Jian Pei · Liang Zhao

红色部分为个人的一些解读，不足之处请多多指点！

第一部分引言

第一章表示学习

第1.2节不同领域的表示学习

第1.2.2节语音识别中的表示学习

如今，语音接口或语音系统已被广泛开发并集成到各种现实生活应用程序和设备中。像Siri、Cortana和Google Voice Search等服务已经成为我们日常生活的一部分，并被数百万用户使用。在语音识别和分析方面的探索一直受到使机器能够参与人机口头交互愿望的推动。六十多年来，使机器能够理解人类语音、识别说话人和检测人类情感的研究目标在几个不同的研究领域引起了研究人员的注意，包括但不限于自动语音识别(ASR)、说话人识别(SR)和说话人情感识别(SER)。

语音分析和处理一直是机器学习算法的一个重要应用。语音识别的研究传统上认为手工设计制作声学特征的任务与设计有效的模型来完成预测和分类决策任务是不同的。这种方法有两个主要缺点：第一，如上所述，特征工程很麻烦，需要人类先验知识；第二，设计的特征可能不是最适合手头特定语音识别任务的特征。这推动了语音界采用表示学习技术的最新趋势，该技术可以自动地学习输入信号的中间表示，该中间表示更适合于手头的任务，从而导致性能的改良。在这些成功里，基于深度学习的语言表示扮演着重要的角色。在语音技术中使用表示学习技术的一个主要原因是语音数据与二维图像数据有根本的不同。图像可以作为一个整体或片断进行分析，但语音必须按顺序格式化，以捕获时间依赖性和模式。

用于语音识别的有监督表示学习。在语音识别和分析领域，广泛使用了有监督的表示学习方法，其中特征表示是通过利用标签信息在数据集上学习的。例如，受限Boltzmann机器(RBM)(Jaitly和Hinton，2011；Dahl等人，2010)和深度置信网络(DBN)(Casong等人，2016；Ali等人，2018)通常用于从语音中学习不同任务的特征，包括ASR、SR和SER。例如，2012年，微软发布了基于上下文相关深度神经网络的MAVIS(微软音频视频索引服务)语音系统的新版本(Seide等人，2011)。这些作者设法降低了错误率，与基于高斯混合的传统模型相比，四个主要基准的修正率降低了约30%(例如，在RT03S上从27.4%到18.5%)。卷积神经网络是另一种流行的监督模型，广泛用于语音和说话人识别等任务中的语音信号特征学习(Palaz等人，2015a，b)和SER Latif等人(2019)；Tzirakis等人(2018)。此外，人们还发现，LSTM(或GRU)（LSTM,长短时记忆网络,是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的）可以通过学习局部依赖关系和长距离依赖关系来帮助CNN从语音中学习更多有用的特征(Dahl等人，2010年)。

用于语音识别的无监督表示学习。从大量未标记数据集中进行无监督表示学习是语音识别的一个活跃领域。在语音分析的背景下，它能够利用无限数量的未标记语料库来学习良好的中间特征表示，然后可以用来提高各种下游监督学习语音识别任务或语音信号合成任务的性能。在ASR和SR任务中，大多数工作都基于变分自编码器（VAEs），其中生成模型和推理模型是联合学习的，这使得它们能够从观察到的语音数据中捕获潜在的表示（Chorowski等人，2019；Hsu等人，20192017）。例如，Hsu等人（2017年）提出了一种分层的VAE，以在没有任何监督的情况下从语音中捕获可解释的和不纠缠的表示。其他自编码架构（如去噪自编码器（DAE））也很有希望在无监督的情况下找到语音表示，特别是对于有噪声的语音识别（Feng等人，2014；Zhao等人，2015）。除上述之外，最近，对抗性学习（AL）正在成为学习无监督语言表示的有力工具，例如生成性对抗网络（GAN）。它至少包括一个生成器和一个鉴别器，前者试图生成尽可能真实的数据来模糊后者，后者也会尽力消除模糊（来识别前者）。因此，生成器和鉴别器都可以以对抗的方式反复训练和改进，从而产生更具鉴别性和鲁棒性的特征。其中，GANs（Chang and Scherer，2017；Donahue et al，2018）、对抗式自编码器（AAEs）Sahu et al（2017）不仅在ASR中，而且在SR和SER中，在建模语音方面都变得最受欢迎。

用于语音识别的迁移学习。迁移学习（TL）包括不同的方法，包括MTL、模型自适应、知识转移、协方差变换等。在语音识别领域，表示学习在TL的这些方法中获得了很大的启发，包括但不限于域适应、多任务学习和自学习。就域适应而言，语音是异构数据的典型示例，因此，源域数据和目标域数据的概率分布之间总是存在不匹配。为了在现实生活中构建更健壮的语音相关应用系统，域适应技术通常应用于深度神经网络的训练通道中，以学习能够明确最小化源域和目标域中数据分布差异的表示法（Sun等人，2017；Swietojanski等人，2016）。就MTL而言，学习的表示可以成功地提高语音识别的性能，而不需要上下文语音数据，因为语音包含可以用作辅助任务的多维信息（消息、说话人、性别或情感）。例如，在ASR任务中，通过使用MTL和不同的辅助任务，包括性别，说话者适应，语音增强，已经表明学习共享表示的不同耳鼻喉科任务可以作为辅助信息的声音环境和给出较低的错误率(WER) (Parthasarathy和Busso, 2017;夏,刘2015)。

语音识别的其他表示学习。除了上述三类语音信号表征学习之外，还有一些其他常用的表示学习技术，如半监督学习和强化学习。例如，在ASR语音识别中，半监督学习主要用于避免缺乏足够的训练数据。这可以通过创建特征前端（Thomas et al，2013），或使用多语言声学表示（Cui et al，2015），或从大型非成对数据集提取中间表示（Karita et al，2018）来实现。RL（强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。）在语音识别领域也越来越火热，已经有多种方法来建模不同的语音问题，包括对话建模和优化（Levin等人，2000年）、语音识别（Shen等人，2019年）和情感识别（Sangeetha和Jayasankar，2019）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)