【20220412】文献翻译4：交互中的手势和语言概述

2023-10-26

Gesture and speech in interaction: An overview

1. 简介
2. 什么是共同语言（同声传译）手势？
- 2.1 用手比划
- 2.2 用头做动作
3. 语音和手势是交互的？
4. 时间协调的重要性
5. 应用、注释、工具和语料库
6. 结语

P. Wagner, Z. Malisz, and S. Kopp, “Gesture and speech in interaction: An overview,” Speech Communication, vol. 57, pp. 209–232, 2014, doi: 10.1016/j.specom.2013.09.008.

手势和语言相互作用。它们在语言生成和感知中相互关联，它们的互动有助于实现愉悦的交流。这些互动的多面性已经引起了言语和手势界的极大关注。本文概述了我们目前对手势和头部手势形式和功能的理解，以及手势和语言之间的主要功能互动，以帮助交流、传递意义和产生语言。此外，我们还概述了关于时间上的语音-手势同步的研究，包括在语音-手势协调中前景的特殊作用。此外，我们还总结了可用于手势分析的工具和数据，并介绍了技术系统中的语音-手势互动模型和模拟。这篇综述也是特刊的介绍，涵盖了关于这些主题的大量文章。我们在本文中提供了该特刊的链接。

1. 简介

信息可以通过口头或非口头的方式进行编码。尽管对交流的研究传统上一直集中在语言上，但近年来，人们对多模态的兴趣稳步增长。越来越多的研讨会吸引了国际跨学科的听众，这就是明显的证据。例如，在波兹南（2009年）和比勒费尔德（2011年）举行的GESPIN（交互中的手势和语音）会议，以及手势研讨会系列（GW）都专注于人机交互中手动手势的技术建模。视听语音处理研讨会（AVSP）主要集中在多模态面部交流的技术方面，而LREC多模态语料库研讨会和ISGS（国际手势研究学会）系列会议则分别对手势研究进行了广泛的探讨。

这种强烈的兴趣与以下事实有关：显然，只考虑口头或文本信息，不足以提供人类交流的全貌。多模态使说话者受益。例如，在描述我们正在寻找的杯子时，我们可以用手来描述它的形状和大小，同时说 “它大概有这么大，形状是这样的”。通过使用我们的手，我们避免了对空间尺寸进行精确的口头描述。"符号学的多功能性 "是指不同的模式比其他模式更适合于表达某些类型的信息。手比语言更适合表达形状，而脸部最能表达情绪和态度。当使用其全部多模态表达潜力进行交流时，说话者可以通过同时传递互补的信息来提高交流效率，并通过在各种模态中提供冗余信息来促进稳健性。

手势和语言之间的相互作用对各种情况具有高度的适应性。当需要用手完成其他任务时，语言可能占主导地位，而在嘈杂的情况下，手势可能占主导地位。在任何情况下，我们经常使用一种模式的信息来区分、加强或强调另一种模式的信息。Kendon(2004)区分了共话手势的两个主要功能，即实质性手势和实用性手势。前者对话语内容有贡献，而后者则有助于协商情境嵌入的各个方面。这是通过传达态度、关注程度或互动各方之间的一致意见，或通过将话语单位分成轮流或信息包，从而引导话语组织。自然，所有这些方面都是基础和应用研究的兴趣所在。

鉴于模式的多种功能和复杂的相互作用，对交流的全面说明将需要描述和解释(a)各种类型的功能、特定模式的信息，以及(b)它们的相互作用是如何被制约的。我们希望这个特刊能够鼓励人们对这些问题进行更深入的探索，重点放在语音和手势之间存在的功能和时间上的相互作用和制约。

鉴于需要更多地了解这两种模式之间的相互作用，我们的目标是促进手势和语音研究界之间的讨论。越来越多的手势研究者拓宽了我们对人工手势在交流中的作用的理解，但迄今为止，他们很少涉及手势-语言界面的更多技术方面。这是不幸的，因为技术系统不仅允许我们开发工作中的应用，而且还为模型模拟和评估提供了一个直接的途径。同样，更多的技术系统研究者可能会从对手势如何帮助人类的语音和语言处理的更好理解中获益（参见第5.4节）。另外，手势研究可能会大大受益于对prosody如何与语音相联系的理解，因为这种联系与手势与语音关系的许多方面相类似。一些研究者甚至认为，语调是 “语音中类似手势的成分”（Tuite, 1993），或者说，它是与言语流共同表达的共同生产系统的一部分（Bolinger, 1982, Kendon, 1972）。

除了概述我们目前对语音-手势关系的理解外，我们的主要目标是缩小语音和手势研究之间的差距，以及在工程和人文领域对手势的看法之间的差距。事实上，我们觉得所有这些在很大程度上相互重叠的群体都会从这样的讨论中获益，使他们的模型在认知上合理，在形式上坚实，可转移到现实世界的应用中，并在经验上有充分的依据。在本文的其余部分，我们概述了语音和手势在时间和功能上的联系，并讨论了现有的注释、分析和技术模拟的工具和方法。由于本文也是一个特刊的导言，涵盖了关于这个主题的大量文章，我们在文章中提供了这些文章的链接。

2. 什么是共同语言（同声传译）手势？

根据Kendon(2004)，手势是任何身体部位的可见动作，当它被用作话语，或作为话语的一部分。它们的出现，不管是与说话同时还是同时出现，都导致了对它们在交流中的作用的不同看法。要么，手势被视为语言系统不可分割的综合部分（McNeill, 1992, McNeill, 2005, Kendon, 2004），要么，说话本身被视为一种不同的多模态现象（Cienki and Müller, 2008）。不管是哪种情况，共话手势在不同方面都有不同的表现。最初，McNeill（1992）沿着他所说的Kendon的连续体对它们进行了区分。随着常规化程度的提高，手势对共同语言的依赖性越来越小，而手语则完全独立。标志性的手势，例如 "大拇指 "手势，是常规化的和特定于语言的，而共同说话的手势则不那么标准化，与语言一起完成交流的成功。后来，McNeill（2005）进一步完善了这一观点，认为有几个连续的复合体，即

(a) 连续体1：与言语的关系（言语的强制性存在–…–言语的强制性不存在）
(b) 连续体2：与语言属性的关系（语言属性不存在–…–语言属性存在）。
(c) 连续体3：与常规的关系（未常规化–…–完全常规化）。
(d) 连续体4：符号学的特点（全局和合成 - … - 分段和分析的）。

手势被置于这些连续体的左端（共话，本身没有语言属性，不习惯化，全球意义）。在这个特刊中，重点在于手势，因为通过手势可以考察语音-手势互动的全部潜力和限制。在接下来的章节中，我们将分别完善我们对手动手势（参见第2.1节）和头部手势（参见第2.2节）的概述。

2.1 用手比划

手和胳膊的姿态动作可能是研究最多的共话手势。基于Kendon, 1972, Kendon, 1980的开创性工作，它们通常被分成几个姿态阶段。Bressem和Ladewig(2011)对此进行了回顾。

(a) 休息位置，一个稳定的位置，从这里开始手势的初始化。
(b) 准备阶段，在这个阶段中，为了准备下一个阶段，开始从休息的位置移动。
(c) 一个手势动作，通常被认为是强制性的，包含一个努力的高峰（旨在表现交流功能）和一个最大的信息密度。
(d) 保持，这是一个可能发生在笔画之前或之后的无动作阶段，以及
(e) 缩回或恢复阶段，在此期间，双手缩回到一个休息的位置。

此外，最大的手势偏移点通常被认为是手势顶点（也见第4.3节的表1）。有人提出了几个更详细的手势阶段的类别。其中包括反冲阶段（Kipp, 2004）。

手势可以从它们的形式、它们的语义和语用功能、它们与其他方式的时间关系以及它们与话语和对话背景的关系来描述。Gut和Milde(2003)指出，以功能为导向的姿态阶段分类，如上面Kendon的分类，与以形式为导向的姿态阶段描述不同。在以形式为导向的方法中，通常将一个手势分解为若干形态特征，如手形、位置、手向和运动类型（参见第5.1节）。形态特征描述的参考框架通常是手势空间（McNeill, 1992），它将说话人身体前面的空间组织成位置、区域和方向。例如，中央手势空间的手势可以与外围手势空间的手势区分开来。大多数手势都是在中央手势空间进行的，这是一个球状的区域，位于说话者身体上部的前面，在脖子以下，肩膀和肘部之间。发生在这一区域之外的手势据说是在周边手势空间产生的，并被认为是为了吸引收件人的视觉注意力。

除了原始的形式特征外，区分不同的表现技术（Kendon, 2004）或手势实践（Streeck, 2008）也很有用，如塑造、绘画、建模或表演。这些技术代表了更复杂的手势表现模式。它们制约着更原始的特征，这有助于解释它们之间的相关性，并分析它们的意义-形式映射（Bergmann和Kopp，2010）。Priesters和Mittelberg（2013）的研究支持这些结果，并认为手势空间和形式的使用，作为意义和语境相关因素的函数，揭示了说话人的特质，可能反映了说话人特定的个人交际风格、认知和语言技能或人格特征（Hostetter和Alibali，2007，Hostetter和Potthoff，2012）。Aktionsarten，作为将事件的内部结构划分为状态、活动、成就和成绩等类型的一种手段（Vendler，1967）被Becker等人（2011）用来分析动词和伴随的手势笔画之间的关系。结果显示，当被解释为共同表达的Aktionsarten时，动词和手势笔画有系统的时间变化。

一般来说，由于手势在交流中具有不同的功能，根据其语义功能（单独或与形式特征一起）对其进行特征描述和分类往往是有用的，例如使用McNeill（1992）的分类。

(a) 标志性的手势具有常规化的意义（“竖起大拇指”）。
(b) 标志性手势类似于所传达信息的某个物理方面，例如，它们可能传达一个描述对象的形状或一个运动的方向。
(c) 隐喻性手势是类似于抽象内容而非具体实体的标志性手势（McNeill, 1992, Cienki and Müller, 2008）。
(d) 表述性手势指出了空间的位置，空间往往是概念性的，而不是具体的。
(e) 节拍手势是简单而快速的手部动作（也叫棒子（Ekman and Friesen, 1972））。它们不是直接传达意义，而是通过与语音中的前景事件同步来指代说话的过程本身。它们被发现有助于感知时间上一致的语音的突出性，并能在视听音的意义上发挥作用（参见第2.2节用头做手势，第4.2节手势和音节的相似性、差异性、互动性）。

需要注意的是，这种分类不应该被理解为定义了不同的类别。McNeill（2005）令人信服地认为，对手势进行简单的功能分类通常会产生误导。由于大多数手势的多面性，他更倾向于对手势进行维度而不是基于类别的描述，其维度包括标志性、隐喻性、脱词性、时间上的突出性（节拍）和社会互动性。这承认了一个事实，即大多数手势都可以沿着这些维度来描述，例如，当一个指向性的手势也描述了一个运动的方向，或者当一个节拍被叠加到一个象征性手势的笔画开始时（Tuite, 1993）。

2.2 用头做动作

由于它们的动态变化性和多维性，确定有助于可分类的头部手势 "段 "或模式的特征运动学参数具有挑战性（Altorfer等人，2000；Kousidis等人，2013）。然而，我们可以对基本的头部手势形式和相关功能做出一些概括。

交际性头部手势利用围绕三个主要旋转轴的运动（分别是围绕Z、X和Y轴的偏航、滚动和俯仰旋转），以及通常沿Y轴（耳际）和X轴（鼻枕）的两个线性位移（翻译）。图1显示了在共同语言的头部姿态中最常见的旋转和平移。图1中使用了三维空间坐标的数学惯例，就像在生物力学和生理学研究中一样（Yoganandan等，2009，Kunin等，2007）2。然而，重要的是要记住，这些模式在其确切的运动学实现（角度，程度）上有很大的不同，以及与其他运动重叠。上下方向的俯仰旋转（围绕Y轴的降低和提高或屈伸）在对话中尤其经常使用。与这种旋转相关的动作通常被称为点头和头部抽搐或上冲。最近对多模态语料库的分析报告显示，当参与者被指定为听众角色时，点头在手势中占主导地位（Włodarczak等人，2012年在德国主动倾听语料库中，81.5%的头部动作是点头）或在自由交谈中（Ishi等人，本期在日语多模态语料库中，56%是点头）。围绕Z轴的横向运动通常被标记为转弯和摇晃，而围绕X轴的角度位移（横向弯曲）被称为倾斜。线性位移（平移）较少使用，然而，沿X轴突出和缩回头部可能与惊讶和注意的表现相关。根据Kousidis等人（2013）对德国语料库数据的观察，我们还提议将沿水平轴的位移纳入其中。

在这里插入图片描述
图1. 沿着三个轴的旋转和平移的示意图，以及在交流性头部手势中最经常使用的例子动作。

除了位移之外，其他几个运动学参数对于识别头部运动模式也很重要。上面讨论的运动类型的例子表明，沿同一轴线的方向区分了交际性的向前和向后的头部运动，即点头和抽动头部（下冲与上冲）之间。周期性在区分侧向运动的类型方面起着作用，如（重复）摇头，在这种情况下，头像一个钟摆（Heylen等人，2008），而不是头向一边或另一边的单一转动。Hadar等人（1985）区分了线性和循环运动形式，相当于单次和多次点头，并将它们分别与转向信号和对问题的反应联系起来。单次点头与多次点头被认为是以语言相关的方式随反馈功能而变化的（Hadar等人（1985）针对英语，Cerrato（2007）针对瑞典语，Włodarczak等人（2012）针对德语，Ishi等人（本期）针对日语中头部运动-对话行为关系的详细说明）。

沿着与头部姿态强度相关的参数的连续变化，如运动频率（运动速率）和振幅（位移程度）可能有助于几个主要功能的细微差别（参见Birdwhistell（1970）提出的修改运动结构的运动修饰语，即强度、范围和速度）。这种细微差别主要与给予反馈、轮流发言和视听亲和力有关。Hadar等人（1985年）指出，抢地板的线索通常用宽而线性的头部动作来表达（如高振幅的单点头），而与对话者讲话中的音调重音节同步则发生在窄而线性的头部手势的情况下，如低振幅的单点头。Rosenfeld和Hancks(1980)认为，较小的单次点头经常作为典型的反向通道发挥作用。而根据Bousmalis等人（2012）的研究，大振幅、重复的点头是肯定意义的特征。头部运动的横向维度似乎表现出几种可能的运动学特征的连贯组合，具有不同的模式特征。Heylen等人（2008）提出了循环摇晃、头部扫荡、缓慢的头部移动、头部重新定位和其他横向运动之间的区别，所有类别都可能与不同的功能有关。

态度和情感信息也很容易通过头部运动强度来传达。正如Hadar等人（1985年）所指出的，单一的、快速的、尖锐的点头可能是不耐烦的信号，中等速度的、重复的点头可能是同意的简单标志。一些作者将定性参数与背景意义或态度信息联系起来，如头部运动的颠簸性（Poggi等人，2010年）或流畅性（Hartmann等人，2006年），需要用（可能是）非线性运动学参数更好地描述，以便在未来获得更理想的物理特征。

Hadar等人（1983年）试图对与说话有关的头部运动进行频谱分类，与上述通常的类型标签无关。这个报告的一个著名的结果是在他的数据中发现说话转身时头部不停地移动。89.9%的时间。与单纯的生理震颤（Hadar等人，1983年）和身体姿势变化引起的运动相比，独特的频谱特征被认为是交际性头部手势的特征。在这个范围内，运动幅度与频率成反比，也就是说，运动越快，其在空间的偏移就越有限，但姿势转换除外，通常发生在高幅度和高频率的运动。

除了同一动作的重复，不同的头部运动可以在不间断的序列中串联和分层（Heylen等人，2008）。上面讨论的旋转和平移是可分类模式的简单例子，描述了典型的专属运动变化（Altorfer等人，2000），即经常单独出现的运动，与相对具体的功能相关。根据Kousidis等人（2013）报告的自发对话语料库，很明显，大约30%的不间断、连贯的头部动作 “短语”（称为头部手势单元）在串联的序列中包含多达10种不同的专属动作，与倾斜、转身或点头类型的单一或重复实例相比。此外，Kousidis等人（2013年）评估了一个基于运动学参数的手动头部运动注释方案，如上所述。他们发现，例如，注释者经常将倾斜、摇晃和点头与转身混淆，这可能是因为前者被叠加在更广泛的头部转动运动上（参见Heylen等人（2008））。头部的倾斜和点头也经常混合在一起。

在集中讨论了手势形式的特点之后，下面将讨论共话手势在促进交流、意义构建和概念化以及语言计划和生产方面的功能。

3. 语音和手势是交互的？

人们发现在手势和言语之间存在着各种相互作用。这些互动一般出现在合作组织交流的时候（参见第3.1节），也出现在更具体的方面，例如，当以冗余或非冗余的方式向语言信息添加表征内容时（参见第3.2节），或者在语言生产中以多模式拼出概念，从而揭示语言生产机制（参见第3.3节）。

3.1 交际环境中的手势

听众以及整个交际互动都能从手势信息中受益。Kendon(2004)认为，手势的 "语用 "功能在表达说话人的立场时可以是模式性的，在提及正在进行的言语行为或所做的人际动作时可以是表演性的，在以分界功能强调言语的绵延时可以是解析性的，在提及说话人的角色或组织轮流的顺序时可以是人际性的。

语音和手势被描述为遵循一种语用同步规则，即当一起产生时，这些方式总是履行相同的语用功能（McNeill, 1992）。然而，如上所述，这些方式也履行了互补的语用功能，例如当一个拍子的手势或一个点头的动作突出了口头上的信息。同样，我们发现头部动作和口语信号之间以及头部动作和目光之间的语义和语用协调特别密切。这些关系利用了同一身体区域的通道同时被激活所带来的经济和表达程度。这种物理关系可以解释头部手势中几种功能的明显和无争议的紧密结合：互动的、实用的和语义的，以及态度的和情感的。相比之下，手势似乎相对更独立，并具有代表命题内容的不同能力，增加了一种表达方式，往往比说话更快、更有效。Morrel-Samuels和Krauss(1992)的研究结果催生了将手势与语音生成和词汇访问过程的认知模型联系起来的研究重点。然而，最近，手动手势使用的互动维度开始得到重视。

手势的一个主要功能是帮助交流的需要，这一事实被研究结果所强调，当说话人和听话人之间没有可视性时，手势就会减少。此外，手势似乎也随着交际场合的类型而变化（参见Bavelas等人（2008）的概述）。手势的交际功能的另一个指标是，可见性对产生的手势类型有影响。当有能见度时，手势会更大（Bavelas等人，2008），并且通常有明确的互动功能，如调节轮流（Bavelas，1994）。也就是说，在可见性和非可见性条件下都发现了非参考性的节拍手势（Alibali等人，2001）和非义务性的标志性手势（de Ruiter等人，2012）。这意味着有些手势的功能主要是促进语言生产（参见第3.3节），而其他手势的主要功能则更具有交流性。

de Ruiter等人（2012）认为，在对话的最初阶段，说话者往往会多余地混合说话和手势，以减少误解的风险。对这种效果的解释是希望尽量减少交流中的共同努力（Clark and Wilkes-Gibbs, 1986）。换句话说，说话者会适时地选择最有效的解决方案来修复交流问题。因此，如果手势能提供一种快速的方法来消除歧义或增加意义，说话者很可能会使用它。

Holler和Beattie(2003)提出，手势的出现往往是对某种情况所带来的直接交际需求的回应，至少在修复的情况下是如此。在词汇模糊的情况下，会选择最快速的解决方案来解决交流问题，也就是说，通常会做一个消除歧义的手势（Clark and Wilkes-Gibbs, 1986）。听众的需求被清楚地认识到并得到满足。Holler和Stevens, 2007, Holler和Stevens, 2009也显示了共同点的深度，即对话者对相互理解的相信程度（Clark和Brennan, 1991），如何影响手势和言语，并提供了进一步的证据，即根据共同知识的水平，语词是为了接受者的利益而多模态地 "设计 "的（de Ruiter等人，2010）。

建立共同点也是头部手势的最突出的语用功能之一。对话者表达持续的关注和理解，并在对话中通过点头的形式给予反馈（Bevacqua, 2009, Heylen et al., 2011），有时（但不总是）与口头反馈信号（如yes或u-huh）共同出现，显示适当的倾听行为（Allwood and Cerrato, 2003）。对话伙伴也会通过头部手势引起反馈（McClave, 2000, Goodwin, 1981）。通过头部手势（和微笑）产生的反馈被认为是一个特别好的反向通道，因为它同时提供了关于交流成功的信息，而不会干扰对话者的讲话（Włodarczak等人，2012，Heldner等人，2012）。

头部运动也可以发出转向要求的信号（Duncan，1972，Hadar等人，1984），转向的继续和通过姿势性头部移动从直接话语到间接话语的变化（McClave，2000），以及话题和叙述的变化（Kendon，1972）。

此外，头部可以通过直接朝向一个对象突出来进行脱词。这个动作可以表示与话语有关的抽象语气，如提到另一个话题。它可以指向列表中的元素（Kendon, 1972, McClave, 2000, Heylen, 2005, Heylen et al., 2008）。它也可以表示空间的指称性使用（McClave，2000），当通过空间中的词缀来标记主题或对象之间的对比时（Heylen，2006）。

鉴于以上几点，重要的是要记住，头部手势往往需要在其共同发生的语言环境中进行解释，例如前面或重叠的反馈表达，和/或同时发生的多模态环境（共同发生的面部显示、凝视行为或手势（Poggi等人，2010，Rosenfeld和Hancks，1980））。Heylen等人（2008）报告了几项研究，其中头部运动与面部表情共存导致了不同的功能解释。头部倾斜被认为是表达不相信或不理解，尽管当加入例如一个面部表情时，它可以表达兴趣和/或惊讶。同样地，皱着眉头的点头可以表达 “不喜欢”。Bevacqua（2009）发现有证据表明，由倾听者产生的点头被人类研究参与者解释为 "同意 "和 “理解”；然而，当与微笑结合时，它们被解释为 "喜欢 "和 “接受”。Beskow等人（2007年）调查了代理人中特定线索的权重，例如 “笑声为同意”，并发现了类似的相关性。

如前所述，许多主要功能是由两个紧密相连的模态所共享的。由头部手势实现的轮流组织（Jokinen等人，2010年）经常在与眼睛注视的关系中被讨论。也考虑到注意力的显示。相互凝视常常作为交流的先决条件，为其他方式打开或关闭交流的大门，标志着基本的注意力水平。Bavelas等人（2006）报告了在所谓的凝视窗口内，听众的反应数量较多。视觉反馈的存在，主要是头部手势，与相互凝视密切相关，并与积极和专心的倾听相关联。Truong等人（2011年）发现，在面对面的交流中，音调轮廓对提示后方通道的影响不如相互凝视那么显著。具体来说，头部手势被发现与相互凝视有明显的时间关系。

3.2 传递意义

手势和言语的平行使用使说话人和听话人能够获得伴随言语中没有的补充性或辅助性语义品质（Goldin-Meadow等人，1993）。补充性手势表示语言中没有同时提到的信息，例如，当一个孩子在说 "我饿了 "时指着一颗糖果。补充性手势表示言语中提到的信息的额外方面，例如，当说 "球有这么大 "时，同时表示它的大尺寸。Goldin-Meadow, 1999, Goldin-Meadow等人, 2001表明，使用这些额外的信息可以增强交流，并降低理解和生产中的认知负荷。Rowbotham等人（本期）表明，在提到诸如疼痛感觉等质感时，手势特别适合传达补充信息。Alibali等人（2000）进一步支持了手势促进言语计划和制作的观点，他们发现手势对儿童的言语计划有积极的影响。Iverson和Goldin-Meadow（1998年）报告了盲人演讲者在向其他盲人听众讲话时的手势。因此，他们提供的证据表明，手势不纯粹是面向听众的，而是语言生产的一个组成部分，可能是促进语言生产的一个方面（另参见3.3节）。

具体来说，手势可以支持抽象概念的表达。例如，隐喻性的手势，通过经常提供有关心理状态、数学概念、形而上学现象、话语结构中的空间意象以及语言和交流的概念化的补充信息，帮助说话者传达复杂的表述。这些在认知语言学文献中被称为管道手势（McNeill, 1985, Cienki and Müller, 2008）。一旦抽象思维的元层面得到充分发展，人们就会经常利用手势来描绘他们心中的抽象概念的形象（Alibali和DiRusso，1999，Alibali等人，2000）。也许因此，对隐喻性手势使用的分析已经证明了它在例如教学中的成果（Roth, 2001, Goldin-Meadow, 2003）。

在某些语境中，即使是打拍子的手势也可以传达与对话结构有关的补充性抽象意义。在这种情况下，它们可能指的是与之同步的词，或指的是对话中的不同点，从而显得有助于话语结构（McNeill, 1992）。指向的手势常常伴随着话题的转移，将听众引向对比的空间，其中一个空间指的是前一个话题，另一个指的是下一个话题（McNeill, 1992）。在这种情况下，补充性的、隐喻性的参考与指向性和节拍性手势使用的主要互动功能混合在一起，如上一节所讨论的。

除了补充性或辅助性之外，手势相对于伴随的言语也可能是多余的，比如在说 "球看起来像个橘子 "的同时，也在比划着大小和形状。通常，主要的区别可以简化为冗余与非冗余的手势，后者包括补充性和辅助性的手势。然而，手势的意义和语言的意义由于其不同的语义，总是具有根本不同的性质。因此，手势是否真的可以被认为是严格意义上的多余的是值得怀疑的（McNeill, 2005）。研究这种复杂关系的事实上的当代标准方法在于深度语义分析。一个手势被赋予单一的命题意义或语义特征，然后将其与语音信号中的语义特征进行单独比较。采用这种方法的分析表明，冗余和非冗余手势之间的比例大致相等（Bergmann和Kopp，2006）。

与手势类似，大多数头部手势的形式功能配对是非传统的。除了手势之外，头部手势往往被视为主要服务于实用功能而非语义功能（McClave, 2000）。由于各自身体部位的自然生物力学限制，手动手势显然比头部动作更适合于命题内容的表达。因此，头部手势最常见的语义功能涉及与点头和摇头相关的积极和消极反应，4以及诸如用头部横向扫视来表示 "每个人 "或 "任何东西 "的手势（Goodwin, 1981, McClave, 2000）。McClave(2000)还观察到使用侧向摇晃加强表示 “太好了！” “真的…？”、“正是”、"完全 "以及表示不确定性。然而，这些意思往往与面部和/或声音表达相吻合，这些表达参与了复杂的多模态信号中的意义辨别，尤其是在没有语言辨别的情况下。

Poggi等人（2010）提出，尽管头部运动具有固有的、依赖环境的、多义性，但仍有可能识别出许多特定用途所共有的语义核心。这些核心被认为是取决于说话者的角色。就点头而言，在说话回合中，“重要性”（突出）的语义核心是显而易见的，而在听话回合中，固有的交流是 “接受”。同样，Kendon（2003）认为，在所有的语境中，摇头都有一个否定的核心含义。

然而，由于存在一些众所周知的反转现象，所以不能推测诸如点头和同意之间的关系可能具有标志性或普遍性。在保加利亚语中（Jakobson, 1972），抬头意味着 “不”，在地中海的一些文化中（希腊、意大利南部、巴尔干），甩头与否定有关（Abercrombie, 1954, Jakobson, 1972）。晃头或摇头，指的是重复的、侧身的头部倾斜，是印度特有的头部手势，在西方文化中不为人知，用来表达背地里的交流、友好和接受。显然，即使是基本含义和交际功能也与嵌入特定文化背景的手势形式有关。

3.3 制作手势和语言

为了对在人类言语和手势中观察到的协调提供可能的解释，已经制定了许多模型。冗余手势和非冗余手势之间的区别导致了关于语音伴随手势的产生和感知的促进作用的不同观点。一种关于言语-手势互动的观点提出，手势倾向于反映同时产生的言语，这被称为手拉手假说（So等人，2009）。另一种观点认为，手势和言语生产之间存在着权衡关系。在这种观点中，语言和手势在传递信息方面相互补充，成本较低的生产渠道更占优势（参见de Ruiter等人（2012）的概述）。

更详细的说法是描述在生产过程的不同阶段，如概念化或词汇化，手势和语音之间的相互作用。许多研究者认为，手势，尤其是表征性手势（Krauss和Hadar，1999年），通过引出词汇的检索，在语言生产中发挥了直接作用。这种观点被称为 “词汇检索假说”（Lexical Retrieval hypothesis）。该假说的基础是研究认为：（1）手势出现在犹豫不决的停顿期间，或在表示词汇检索问题的词前停顿期间（Dittmann and Llewelyn, 1969, Butterworth and Beattie, 1978），以及（2）不能做手势会导致言语不流畅（Dobrogaev, 1929）。然而，其他研究报告了相互矛盾的结果（Nobe，2000），例如，在没有填充停顿的情况下有更多的手势（Christenfeld等人，1991）或手势抑制对言语传递没有明显影响（Hoetjes等人，本期）。

词汇检索假说（LR，以下简称LR）的含义通常与信息包装假说（IP，以下简称IP）形成对比，Kita, 2000, Alibali等人, 2000, Hostetter等人, 2007。这一假说的基础是研究结果表明，当信息被包装、组织和分布在各种模式中时，言语和手势在较早的阶段进行互动。也就是说，这种观点认为手势参与了说话信息的概念化。经验上的支持来自于研究显示，当说话的概念化负荷很高时（Kita和Davies，2009），当说话者有很强的视觉空间技能和很弱的语言技能时（Hostetter和Alibali，2007），或者当他们在对话中引入新信息时（Bergmann和Kopp，2006），手势会增加。同样，不同语言的人在为说话而思考的过程中，对其目标语言的信息包装是不同的（Slobin, 1996），并且发现他们在手势中遵循语言特有的包装（Kita and Özyürek, 2003），而不是做出过度的非冗余的手势。

可以说，这两种假说在言语和手势之间联系的 "深度 "上有所不同，其中LR将其与表面的口语形式联系起来，而IP则与更深层次的空间-运动信息的组织和编码联系起来（Alibali等人，2000）。类似于LR，词汇检索的问题与手势活动的增加有关，在IP的情况下，信息概念化的困难预示着手势使用的增加。值得注意的是，对手势和言语产生的原因和影响仍不甚了解。例如Alibali等人（2000）指出了两种版本的LR假说。第一种认为，手势来源于空间编码的知识，并促进了对词条的访问（Krauss和Hadar，1999）。第二种认为手势来自于词条，有利于检索语音形式（Butterworth and Hadar, 1989）。

人们提出了许多不同的模型来解释关于语音和手势在生产过程中如何互动的不同假设。LR假说导致了一个模型（Krauss和Hadar，1999年），该模型假设语言生产和手势生产植根于独立的记忆表征（分别为视觉空间和命题）。语义特征被认为是由各自的系统激活和处理的，没有任何协调。当特征恰好被两个系统处理时，以及在后期阶段，当选定的手势可以在词汇检索过程中为单词打底时，就会产生跨模式互动。

其他模型允许更多的互动，遵循麦克尼尔的增长点理论（McNeill, 1992, McNeill, 2005），该理论指出，语音和手势实际上是同一个自组织过程中不可分割的部分。在Sketch模型（de Ruiter, 2000a）中，互动被假定位于一个负责任何多模态协调（语义、语用、时间）的共享概念器中。草图模型为不同种类的手势提供了明确的说明。Kita和Özyürek(2003)通过假设两个不同的子组件扩展了这一想法，一个是用于概念化语音的信息发生器，一个是用于产生手动动作和交流手势的行动发生器。在这种观点中，手势是基于空间-运动思维的，但也被认为是通过两个子组件之间的双向联系与言语互动。这种互动被认为包括通过界面表征对特定模式的内容组织进行翻译和匹配（Kita, 2000），并向易于言语化的信息包装和分配靠拢。

Hostetter和Alibali（2008）提出，手势是说话者头脑中的模拟行动（手势即模拟行动模型）。基于具身认知的观点，语言和意象被认为可以唤起心理模拟，催生运动激活。根据说话人和特定情况的适应性阈值，这些激活可能会被执行，导致公开的手势。这个模型的重点是与行动有关的（拟态）手势，它可能直接反映说话时的内部模拟。最后，在最近的认知论述中，Kopp等人，2013年，Bergmann等人，2013年提出了一个模型，将概念化建立在工作记忆中多模态信息的形成上。这种观点认为，在思考说话的过程中，视觉空间和命题表征被激活并动态地联系起来，而语音和手势生产系统对记忆的同时操作产生了一种记忆组织，它是（1）时间上稳定的，（2）语言上成型的，以及（3）可言说的。作为扩散激活的例子，这个模型成功地解释了许多关于在不同的认知或语言约束下，信息在语音和手势中的包装和分布的发现。就手势功能的多面性及其在交流中与言语的互动而言，当代生产模型的范围似乎仍然有限。为此，Ferré（本期）建议利用额外的语用成分对现有的手势生产模型进行扩展（也参见第3.1节）。

4. 时间协调的重要性

鉴于手势和语音在交流中的密切联系，它们在时间上的精确协调仍有许多未解之谜，是目前争论的焦点。无论如何，这个因素需要被统一的语音和手势生产模型所考虑。它也需要在技术系统中进行处理，如虚拟或具身的人工代理。然而，当试图将关于言语-手势同步的研究的经验结果与手势产生的模型联系起来时，似乎麦克尼伦传统中固有的关于手势和言语的共同来源的想法并没有直接转化为涉及言语和手势在时间上协调的预测。如果手势是由同一来源规划的，正如Sketch模型的概念者（de Ruiter, 2000a）所建议的那样，同步应该是事先规划好的，随后一次性强加在共同输出上。界面模型（Kita和Özyürek，2003）以及Hostetter等人（2007）都认为，手势来自于独立于语音生产过程的来源，即动作发生器，预测手势表现出实际动作的属性。因此，手势利用了指代对象的承受力，并受到它们的影响。不过，对于界面模型来说，仍然没有关于时间协调的明确预测。然而，通过将手势和言语视为来自两个不同来源的计划，我们有可能获得自由度，使言语和手势时间的动态调整成为可能，从而有助于灵活地达到交际目标并及时解决不流畅问题（Rusiewicz等人，本期）。

在本节的其余部分，我们概述了当前关于手势和语音的时间互动的理论和模型导向的观点，但没有提到对这种关系的基于信号的分析（参见第4.1节），在第4.2节中，讨论了前景音乐在手势和语音的时间互动中的特殊作用。在第4.3节中，介绍并批判性地讨论了测量言语-姿态互动的各种尝试，这些尝试通常建立在亲和力-姿态的密切关系之上。

4.1 手势和语言的时间互动

乍一看，手势和言语的结合可能不如例如音调和言语那样直接，因为两者都源于非常不同的生理系统。然而，一些观点和发现表明两者之间存在着密切的联系，尤其是在生产方面。生理联系的假设是基于这样的观点：“语音和手势的相互共存反映了这两种模式之间的深刻联系，这种联系超越了说话人的交流意图”（Iverson和Thelen，1999）。第3.3节已经讨论了生产中的概念性联系。这种观点认为，手和嘴的运动之间存在着强烈的发展感应运动联系，形成了两者的相互依存关系，并贯穿人的一生。Iverson和Thelen（1999）认为，这种相互依存关系可以在神经生理学数据（也见Loevenbruck等人（2009））和手和嘴的运动协调中看到（也见Gentilucci和Volta（2007））。

在关于联系或独立程度的辩论中，McNeill, 1985, McNeill, 1987, McNeill, 1989, McNeill, 1992认为，手势和语言的同步性为这两种模式的认知相互依赖提供了证据。为了支持这一假设，他指出了结构和功能上的相似之处，并提供了显示语言和手势同步发展的习得证据。McNeill(1992)提出了手势和语言同步的三个规则。

(a) 语音同步规则（以下简称PSR）预测，手势笔画应该发生在最突出的音节之前。
(b) 语义同步规则预测，共同出现的手势和语音与同一概念单元有关。
(c) 语用同步规则预测，共同出现的手势和语音具有相同的语用功能。

在关于共语指向性手势的研究中发现了PSR的系统性案例，即示范词的重读音节与表意指向性手势同步（例如Esteve-Gibert和Prieto，本期，Levelt等人，1985年，Rochet-Capellan等人，2008）。Feyereisen, 1987, Butterworth和Hadar, 1989挑战了语音-手势同步的直接观点。他们认为，手势和言语之间时间关系的确切性质还远未明确，其时间关系的动机也是如此。一般来说，人们认为手势短语的开始时间早于语音的开始时间（Kendon, 1980, Schegloff, 1984, Morrel-Samuels and Krauss, 1992, Nobe, 2000, de Ruiter, 2000a）。McNeill作为生长点概念的基本来源之一所唤起的言语-手势同步，有可能被解释为不太严格的条款，即接近而不是同时性。

然而，最常见的是，手势相对于语言的时间领先性被理解为同步性的证据。在考虑与词汇关联的手势点和阶段之间的时间相关性时，也使用了同一术语（Schegloff, 1984）。同样，在关注手势和语音地标之间更紧密的关系的研究中，与手势运动和语调结构中的某种努力概念相关的，也使用了同步一词。我们考虑前两种对同步性的理解所固有的优先关系，而把更精确的时间锚定和协调问题留给第4.2节手势和语调的相似性、差异性、互动性，4.3节测量时间协调。

句子和语调短语以及突出的音节和词汇附属物是语言成分，实际上在时间上是相关的。此外，鉴于手势类型可以是更多的命题性的，即语义学(iconics)和更多的运动性的，即节奏学(beat, deictics)，在讨论时间关系时，很难区分哪些语言层次和成分(词？或词的突出音节？)与哪些手势符号学类型更系统地相关。相互作用是很多的。继续说到优先权，McClave（1991）表明，在连续出现几个动作的复杂手势的情况下，手势被压缩和前置，都在强调音节之前完成。对于头部手势，Dittmann和Llewellyn，1968年，Włodarczak等人，2012年发现，在英语和德语的不同数据集中，作为反馈的头部动作与附属的口语反馈表达通常在附属之前200毫秒左右。这些优先关系在一些针对不同语言的研究中得到了支持，例如Ferré（2010）针对法语，Karpiński等人（2009）针对波兰语和Chui（2005）针对中文。

上述现象以不同的方式与手势和语音生成模型（图2）联系起来，既试图证实模型，又试图解释现象本身。例如，麦克尼尔的生长点理论（McNeill, 1987）假设思维是想象性的，而言语和手势都产生于同一想象性的来源和同一计算阶段。根据McNeill的观点，"手势领先 "现象的产生，是因为手势与言语不同，不需要语言的处理。Morrel-Samuels和Krauss（1992）提出，手势和言语的共同起源位于交际意图的前语义层面，它同时激活了抽象命题表征和运动表征。手势预示着语言，因为访问运动表征的搜索时间比语义表征短。此外，运动表征比任何词汇表的有限规模更有区别。Morrel-Samuels和Krauss(1992)事实上发现，手势在说话前的间隔时间以及手势的持续时间似乎是说话者对词汇关联的熟悉程度的函数。

在这里插入图片描述
图2. 三种不同模型的示意图概述，可以说明语音和手势产生之间的相互作用从左到右。Krauss and Hadar, 1999, de Ruiter, 2000b, Kita and Özyürek, 2003.

Loehr（2012）也发现，中间语调短语与手势短语相一致。在语音学中，通常认为一个完整的语调短语可能由一个或几个中间短语组成，这些中间短语在语调上由边界音划定（Beckman and Pierrehumbert, 1986）。Loehr提出的证据表明，语音和手势表现出某种语用、时间和结构的同步性。他认为，中间短语构成了认知包的最小规模，其中语调和手势表达都是一致的。

在他们对节拍手势感知的研究中，Leonard和Cummins（2010）发现了一些McNeill的PSR的证据。如果同声传译的节拍手势只比自然产生的手势晚200ms，听众就能系统地检测到不匹配。比自然产生的手势更早合成的手势，往往被认为是完全自然的。使用ERP技术，Özyürek等人，2007年，Habets等人，2011年发现了对语义同步规则的一些支持。他们认为，为了进行语义整合，语音和手势信息的产生不应该有明显的不同步性。他们还认为，为了更深入地研究手势和语音之间的时间联系，需要澄清手势和语音流中哪些部分实际上是同步的，以及如何同步。

Schegloff（1984）提出，手势的典型附属物可以是一系列的强调音节，通常与一系列的节拍手势共同出现。然而，他声称这种 "重音 "的产生是一种次要的排序机制，用于在对话中建立手势与词汇或语用成分之间的有意义的联系。他认为，标志性的手势通常是在其词汇关联之前产生的。

其他研究也从隶属关系的角度考察了同步性，寻找词汇或语义而非语调的钩子来实现共话手势的同步（Bergmann等人，2011，Chui，2005，Ferré，2010，Harrison，2013，Nobe，2000）。Treffner等人（2008）研究了手势时间对词汇关联的感知突出性的影响。他们的研究结果表明，一个手势需要在关联词之前稍微实现，以加强其感知的突出性。Urban（2011）发现，在一个词组中，最高的发音突出点可以作为姿态顶点的锚点。Kim等人（本期）发现头部和眉毛的手势与prosody之间的同步性存在差异，部分由信息结构决定。同样，Ishi等人（本期）描述了语音-手势同步性和手势功能之间的互动。显然，交际性的头部手势与言语背景通道的中心部分同步，并在时间上与边界的末端一致。总之，顶点相对于突出的音节和词汇附属物的确切时间似乎比麦克尼尔的同步规则所建议的更为复杂，尽管如此，时间似乎对语篇的解释有着至关重要的影响。

关于手势和语音之间的同步性的另一种方法是，协调在于概念化的过程，不一定导致生产中的严格同步（McNeill, 2005, de Ruiter, 2000a, Kirchhof, 2011）。事实上，有研究表明，手势在其自然发生地之前或之后的时间转移最多可达600ms，但听者仍能在语义上进行整合（Kirchhof和de Ruiter，2012）。这些数字与前面提到的Leonard和Cummins（2010）关于节拍手势的结果不同。不同结果的原因可能在于对不同手势类型的关注，即节拍（Leonard和Cummins，2010）与表意和标志性手势（Kirchhof和de Ruiter，2012）。因此，可以怀疑手势功能和时间限制是相互作用的：口述手势在形式上类似于节拍手势，然而，相比之下，它们确实有一个明确的指代成分。

研究人员没有把时间上的言语-手势协调看作是说话者内部的现象，而是把它看作是发生在对话者之间的一种协调或夹带过程。在这个意义上，Condon和Ogston（1971年）认为，头部运动与对话者的讲话同步发生，以加强交流的注意力。Louwerse等人（2012年）使用交叉重复分析来描述对话中对话者之间的行为匹配，也称为对齐、同步、夹带或时间上的衔接。他们发现，头部动作和面部行为往往在1.5秒内匹配，不同滞后期的重复状态的相对频率似乎反映了参与者的角色。指令跟随者与指令发出者的头部动作相匹配的频率要高于反之。另外，点头的人际同步性随着时间的推移有增加的趋势，反映了参与者可能的社会归属。这种适应性过程背后的原因通常是在低层次的节奏纠缠过程中寻找的，该过程使说话者能够密切预测和影射对方的话语时间特征（Wagner等人，正在出版）。

Feyereisen（1987）很早就指出，澄清语音和手势之间的计算关系将取决于对它们之间精确的时间关系的理解。有必要进一步明确和描述言语-手势协调现象中所涉及的同步程度。特别是，如果这些现象被用来证实言语-姿态生产模型。关注用于研究同步性的方法也是至关重要的。关于解释言语-手势同步性的方法学警告来自Leonard和Cummins（2010，69），他们指出
两个事件的同步性并不能证明这两个事件比以固定滞后时间发生的两个事件耦合得更紧密（即差异性更小）。两个事件表现出功能联系或耦合的证据必须来自对变异性的研究。

我们将在第4.3节中重新讨论有关手势-声音协调的方法学问题。

4.2 手势和声音的相似性、差异性、互动性

虽然交流显然是多模态策略的产物，但语言被认为主要由 "离散单元的组合 "所支配，按层次组织并线性展开（McNeill, 1992），而与语言相伴的手势则被认为是模仿的、模拟的、特异的，并以 "连续变化的形式 "为特征，Goldin-Meadow（1999, 420）。有趣的是，手势在其潜在的非离散的结构性细微差别方面与 prosody 有很多共同之处：与语音伴奏的手动手势相类似，一个语词的音调重音可以沿着一个语调短语产生或多或少的偏移，从而在不同程度上表达相应项目的新颖性或重要性（Bolinger, 1961, Rietveld and Gussenhoven, 1985, Terken, 1991）。

在手势中也发现了类似的突出性增加效应以及与亲和力的互动（Swerts和Krahmer，2008），并被称为视听亲和力，而且被认为与共同出现的语音密切互动。口语信号和头部运动与面部表情的突出性借力，如眉毛运动（Ekman, 1979, Krahmer and Swerts, 2007, Granström and House, 2007, al Moubayed et al., 2010）加入到多模态的突出性增加的效果中。

这种增强可以服务于互动功能，例如通过显示更高的注意程度，以及语义功能，例如通过示意信息集中（Beskow等人，2006）。Bull和Connelly（1985）的研究表明，原则上，任何身体部位都可以承担这种强调功能，而且不限于手势或头势。视听的前景似乎也能促进理解。Munhall等人（2004年）发现，语音的振幅和基本频率与头部运动相关。此外，在用动画代理进行的感知实验中，作者表明，头部手势的突出贡献与音调和强度一起促进了单词识别。作者的结论是，语言的可理解性直接随头部运动的变化而变化。视听效果的其他例子与情感、态度、注意力和参与度的交流有关（Ekman，1979；Cafaro等人，2012；Ishii和Nakano，2008）。这些也被发现在诸如价值和唤醒的维度上表达前景，而不是在诸如愤怒、恐惧或喜悦的离散类别中表达（Schröder等人，2001）。同样，作为对语调的反映，头部手势也被发现用于评价或评论正在进行的话语（Poggi等人，2013）。

Karpiński等人（2009）注意到，手势短语和语调短语在结构上有一些相似之处。“两者都是围绕一个核心的突出事件（语音中的重音和手势模式中的笔画），在这两种情况下，这个事件（是）单元的唯一强制性组成部分”。(Karpiński et al., 2009, 119)。鉴于这些相似之处，毫不奇怪，就像手势一样， prosody也被与非常相似的互动功能联系起来（参见第1节）。一些例子是话语组织、前景突出（prominence）、表达说话人的态度，以及将语音结构化为可解析的单元（Beckman and Pierrehumbert, 1986, Gravano and Hirschberg, 2011, Rietveld and Gussenhoven, 1985, Schröder et al., 2001, Swerts and Geluykens, 1994）。

迄今为止，人们对视听亲和力和言语亲和力之间互动的确切性质，例如在突出强调方面，还不是很了解。这包括两种模式是平行还是互补的问题，也就是说，口头产生的突出性的不足是否被手势所平衡，或者各种模式是否以加法的方式对突出性作出贡献。Fernández-Baena等人（本期）发现有证据表明，两种模式在突出性方面有加法效应。然而，在突出性表达中，时间上的共时性不如结构上的相似性重要。有趣的是，Ferré（本期）的研究表明，一个明显的前景结构往往会被平行的手势所加强，而对于明显的句法结构则不一定如此。这进一步加强了手势和音节表达之间存在更深层次联系的假设。

尽管它具有连续的性质，但声音可以表达语法化的、离散的意义（Gussenhoven, 1999）。同时，它经常与语调意义的普遍性相联系，如频率代码（Ohala, 1984），其中高音调表达小和不确定性，低音调表达大和自信。看来，共语手势很可能通过普遍的隐喻与语体分享其梯度和模仿性（Lakoff and Johnson, 1980）。然而，与手势不同的是，prosody和言语表达共享一个生理生产机制。因此，它们是紧密耦合的，因为语音总是表现出某种前景，但重音和音调等前景事件与词语等言语事件之间的时间耦合为变化留下了空间。

现代语音学框架，如自分词-计量语音学（Goldsmith, 1990）或发音语音学（Browman and Goldstein, 1986），模拟了音调和语音之间存在的部分独立性，同时仍将两者视为使用共同生产和感知系统的共同语法的两个层次。在自律-计量语音学中，两个描述层之间的联系表示时间上的共同发生，而在发音语音学中，语音对比和结构被解释为发音运动之间时间上协调的结果。类似的方法可能适用于描述通过时间限制的手势-语言互动所传达的语言功能（Bressem和Ladewig，2011，Jannedy和Mendoza-Denton，2005，Treffner等人，2008）。

手势和声音在其非谨慎性、特异性方面有相似之处，并且可能在运动方面有协调。它们在时间上有联系，例如通过某种程度的同步，在结构上也有联系，例如通过表达的力度或形状的相似性，并且可以相互加强。这一观点最近得到了支持。在一项共同语音敲击的运动任务中，说话者无法解除敲击和强调的同步性，语音或手动行为中的强调会自动延长另一领域的制作（Parrell等人，2011）。Esteve-Gibert和Prieto（本期）也支持这种强烈的发展联系，他们发现早在咿呀学语阶段，手势和言语prosody之间就有时间上的协调，笔画的发作与突出音节的发作相一致。

关于解释这种观察到的言语-手势同步的机制，Tuite（1993）提出了一种节奏脉冲，它是手势产生的基础，起源于言语的突出模式，即强调和不强调的单词和音节的序列。然而，关于语音节奏的定义、有效性和基本机制，在声音学界有大量的持续讨论。至少可以说，如果有一种节奏性的脉搏存在于语音中或从语音中出现，那么手势标志很可能与这种脉搏相关，因为(a)这两个过程的运动性质，(b)语音和手口联系中的手势来源（参见第4.1节），以及©两种方式可以传达的类似功能。一个有助于解释这种协调的想法来自动态系统的观点。该理论假设在认知加工的运动水平上的各种系统之间存在着一种夹带耦合（Kelso等人，1983）。这一观点也被Rusiewicz等人（本期）的研究作为一个出发点。作者使用扰动范式，研究了言语、手势和前景的协调，并发现有证据支持在言语-手势协调中存在着低水平的夹带作用。

总而言之，亲和力和手势之间的时间协调似乎比一般的手势和语音之间的协调更强。不过，手势和语言表达之间的时间限制可能没有那么严格，或者说与拟态和语言之间的时间限制相当不同，这可能是因为它们在不同的生理系统中的表达施加了生物力学限制，也因为参与语言和手势产生的认知过程的具体特征，至今仍未得到解释。

4.3 测量时间上的协调性

语音和手势遵循固有的不同结构特征，并受到不同生理系统的制约。因此，语音和手势在时间上如何协调的问题没有简单的答案。鉴于prosody和手动手势之间的密切协调关系，以及手势和prosody在与语音关系上的相似性（参见第4.2节），一些作者很早就提出prosodic landmarks和gestural landmarks应该自然协调。Birdwhistell(1952)首次提出了关于语调和手势及其相关性的观察。他认为，音调的轮廓和特定的点，如音调重音，都与手势动作相一致。Bolinger观察到，手势在其主要运动方向上跟随音调轮廓上下移动（Bolinger, 1983, Bolinger, 1986）。McClave（1991年）和Loehr，2004年，Loehr，2012年着手验证Bolinger对语音-手势平行性的观察。这一现象在他们的数据中偶尔出现，尽管他们没有发现明显的相关性。

在对模态之间的协调进行定量分析时，关于言语-姿态同步的直觉要求对构成姿态和言语的连续运动中的锚点或间隔进行测量（参见第4.1节）。这些点通常对应于不同的估计努力最大值，最初是基于早期的定性发现，即节拍手势的能量最大值倾向于与突出的音节一致（Schegloff，1984）。表1中列出了几项研究各种手势和语调锚之间时间协调的经验性研究。

表1. 关于各种手势锚和语调锚之间的时间关系的经验性研究报告。

在这里插入图片描述
突出的音节对应的是语流中通常被认为是以最多的发音努力产生的部分（Eriksson等人，2001，Tamburini和Wagner，2007）。文献中研究的手势和前景之间的时间关系集中在音调重音的音节和不同类型的手势努力峰值上。对音高重音的依赖可能源于一个长期的共识，即这些音高重音是一个主要的突出的声音参数。文献中对手势运动中的最大努力点的描述具有不同程度的测量客观性，对什么是最大努力的观察也有不同的定义。大多数的定义唤起了努力的动觉质量或峰值努力（Kendon，1972），与可见运动的突然变化相关，要么是运动加速期或冲刺期（Kita等人，1998）6，要么是突然停止或击中（Shattuck-Hufnagel等人，2007），要么是空间的最大运动延伸，称为顶点（Leonard和Cummins，2010）。这与语音中的肌肉和声门努力相关，与频谱质量的突然声学变化和音高重音的产生有关（Stetson, 1951, Birdwhistell, 1970）。

手势笔画经常与基于努力的定义联系在一起，如Kita等人（1998，33）提出的定义。“一个阶段，如果比相邻的阶段施加更多的力，就是一个行程。请注意，加速（和减速）是所施加的力量的一个良好指标”。请注意，按照McNeill（1992）的说法，从功能上讲，笔画是一个手势中最有意义的部分，而不是最费力的部分。此外，笔画可能包含了完全没有运动的笔画保持。这并不意味着，由于有意义的运动阶段的目的性突出，笔画可能不会与动能的消耗增加相关。Kita等人（1998，27）讨论了与McNeillian手势阶段有关的努力概念（参见2.1节）。
不同类型的阶段可以通过不同的 "努力 "的焦点来识别[…]。在准备和缩回中，努力的重点是达到它们各自的终点（下一个笔画的开始和休息的位置）。相比之下，在划动中，努力的重点是 “运动本身的形式–它的轨迹、形状、姿势”，麦克尼尔（1992年，第376页）从形式和功能两个方面来定义划动。在功能上，笔画是 “手势的内容部分”。

尽管如此，沿着不同形式的笔画阶段相对于其他阶段的持续时间，对动能的精确测量应该有助于指导本质上的功能单元，如笔画，与未来的努力联系起来。

从基于转录材料的观察研究开始，Tuite（1993）发现，不同类型的手势的笔画与附属音组的核音节重合。Karpiński等人（2009）报告了基于语料库的手势短语、语调短语的时间共现性分析，以及对波兰语中语音和手势笔画两级突出部分重叠的查询。他们发现在大约40%的情况下严格应用PSR的证据，并为例外情况提供了几个定性的原因。这些例外情况包括笔画重复、惯性回声和经常违反PSR规则的流畅的手部偏移。在不完整的语调短语和手势短语的情况下，该规则往往也是无效的，当被手势或语音犹豫打乱时，PSR经常失败。这样的结果使他们建议在时间协调和PSR的背景下重新定义笔画阶段。正如这个词本身所暗示的那样，中风是一个突出的、有意义的运动，通常以击球结束。当有意义的运动中的离散点被发现时，这些离散点似乎又与语言中的高度突出点一致。

类似的推理激发了对手势运动的击打和顶点的研究。与Loehr, 2004, Loehr, 2012, Jannedy和Mendoza-Denton, 2005, Yassinik等人, 2004发现，顶点或命中与音调一致。在Jannedy和Mendoza-Denton的数据中，几乎没有不与音高重音相吻合的顶点。然而，Loehr（2012）报告的数据表明，同步一词不应该被视为严格的共同发生，因为顶点和最近的音调口音之间的距离分布表现出341毫秒的标准偏差，平均领先于半个视频帧（17毫秒）的音调标志。

Leonard和Cummins（2010年）在为手势寻找更精确的语音锚时指出，很难在运动中得出具有明确参考点的手势的原子化描述，这些参考点可以与语音中的类似点相关。他们考虑了不同的语音候选者作为锚点。其中包括强调音节的元音起始点、音节的估计知觉中心和强调音节的音调峰值。这些点被分析为与节拍手势有关，因为它们的形式不太受意义表达的限制。节拍手势运动学中的参考点被测量：运动的开始和偏移，伸展和缩回阶段的峰值速度，以及最大伸展点。Leonard和Cummins（2010）发现，无论与哪个语音锚相关，最大伸展点的变异性都是最低的。然而，与Loehr（2012）的研究结果类似，强调音节的音调与扩展峰值的同步性最为紧密。此外，扩展阶段的最大速度原来与感知中心和元音起始点最一致。这些结果表明，节拍手势阶段与发音地标是紧密同步的。

如前所述，节拍手势往往很少或没有语义内容，其时间和形式相对不受意义表达的限制。相反，正如Leonard和Cummins（2010）所指出的，它们的意义在于其 “力度和时间”。与大多数表征性手势相反，节拍是双相的，因为它们是由离开静止状态和返回的短暂运动产生的（McNeill, 1992, Cassell, 1996），而表征性手势通常包括准备、划动和收回阶段（参见第2.1节），即它们是三相的，而且速度更慢（Cassell, 1996, Wilson等人, 1996）。总之，节拍是简单的，不受约束的，因此，可以作为伴奏语音的运动标志。

在说话时，节拍似乎也出现得非常频繁。McNeill(1992)发现，在复述Sylvester和Tweety的动画片时产生的所有手势中，有44.7%是节奏。Theune和Brandhorst(2010)在一个指示语料库中发现，32.1%的手势是节拍，并报告说，相对于其他手势，节拍的使用在说话者之间有很大的差异。他们还讨论了区分纯节拍手势和其他手势形式的困难，特别是指向性手势和图标。McNeill(1992)提出了一个节拍过滤器，列出了定义运动性节拍手势的特征。Theune和Brandhorst（2010）通过注释者之间使用节拍分类标准的一致性测量，评估了节拍过滤器的准确性。他们发现，这种纯粹的物理分类的可靠性并不高（κ=0.34）。结果表明，节拍很少作为纯粹的节拍产生，例如用拳头或手掌垂直于地面的上下运动序列，而往往是叠加在其他形式上。它们与语音中的音节地标的相关性可能表明，音节地标可作为夹带准时运动的负担（Leonard和Cummins，2010年），有助于手势和语音在时间上展开时的功能内聚力。

简单的手势形式，如手动节拍和更复杂的手势笔画中的突然停止点的证据表明，这些形式与通常放在突出音节上的音调紧密同步。在许多语言中，音高重音是词汇和句子压力以及信息结构的信号，尽管是以一种特定的语言方式（Jun，2007）。需要对与语音的叠加和纯节拍协调之间的差异进行更多研究。另外，据我们所知，目前还没有关于流畅的、连续的手势动作，以及它们与连续的音调轮廓相一致的方式的研究。相反，时间同步的证据来自于连续的手势和语调运动中的地标。由于限制在手动手势上，这些研究不能扩展到其他模式，即使它们的突出功能可以由不同的身体部位来承担（Bull和Connelly，1985）。

与节拍和击打类似，头部运动，典型的双相和振荡，似乎与音高重音的音节协调得很好（Fernández-Baena等人，本期）。Hadar等人（1983年）发现交际性头部运动频率有三种模式（参见第2.2节），即慢速、普通和快速，他们认为这可能与音节周期相关，如音节和短语或重音干系（Birdwhistell，1970）。

5. 应用、注释、工具和语料库

在这一节中，我们将对共话手势研究的更多应用方面进行概述。我们描述了如何对共语手势进行注释（参见第5.1节），哪些软件工具（参见第5.2节）和语料库（参见第5.3节）可用于注释和分析，手势研究如何影响了技术系统的发展，以及这些系统如何用于评估现有理论和模型（参见第5.4节）。

5.1 手势注解

为了研究手势，人们开发了许多注释模式，每种模式都有不同的优点、局限性、理论假设和重点。对适当的注释模式的选择可能取决于研究问题、研究领域、预期的分析类型（定量或定性）、可用的材料和注释资源以及可能的应用。可以对更注重形式（Martell, 2002, Trippel等人, 2004）或注重功能（Caldognetto和Poggi, 2001, Allwood等人, 2007）的注释进行一般性区分，而大多数系统都考虑到了这两个方面。当然，任何功能注释架构都必然会对手势可能具有的功能种类做出一些理论上的假设。在NEUROGES系统中，试图通过建立一个形式和时间问题的注释，然后再进行功能注释，来解开形式和功能的注释（Lausberg and Sloetjes, 2009）。

大多数注释模式（参见表2）都集中在手动手势和它们的代表功能上。MUMIN模式是专门用来处理手动和面部手势的语用功能的（Allwood等人，2007）。多模态评分（Caldognetto and Poggi, 2001, Caldognetto et al., 2004）是专门为系统分析手势以及面部手势而设计的。转录系统差别很大的一个方面是它们对手势分割和分组的处理。许多系统（Kipp, 2001, Kipp等人, 2007, Lücking等人, 2013, Trippel等人, 2004）隐含或明确地遵循McNeill, 1992, McNeill, 2005的分割建议，后来Duncan在她的注释性实践7中明确指出，根据笔画的识别，并通过识别笔画前后的准备和缩回阶段来分离手势短语。Kita等人(1998)提出了一种更复杂的方法，将这些手势短语排序为更大的运动单元，并在Brugman等人(2002)、Brugman和Russel(2004)中被采纳和扩展。他们的想法也被Kipp的注释模式（Kipp, 2001, Kipp等人, 2007）和Trippel等人（2004）以稍加修改的方式考虑在内，允许单一手势短语的序列。

表2. 各种手势注解模式的关键属性。

在这里插入图片描述
所有专注于形式的注释系统都需要明确说明这样做的方法。一些系统提出了相当模糊的建议，并将描述性细节的水平留给注释者（Caldognetto和Poggi，2001，McNeill，2005，Selting等人，1998，Selting等人，2009），而其他系统则决定采用非常复杂的策略来捕捉姿态细节（Martell，2002）。大多数系统都试图在这两个极端之间做出妥协，以使注释不那么费时，同时还能捕捉到潜在的相关细节。试图在适用性/可用性和信息深度之间找到平衡的系统的例子是SAGA-注释（Lücking等人，2013）、CoGest（Trippel等人，2004）和Kipp的系统（Kipp等人，2007）。虽然细节程度不同，但所有的手势形式注释都考虑了形状、位置、方向以及运动属性，如轨迹和动态运动前后的位置。有些系统不区分单手和双手的手势，而其他系统则非常注意这种区分。一个例子是NEUROGES系统，它要求说明双手之间的关系（Lausberg and Sloetjes, 2009）。

另一个重要的方面是指对语音-手势互动的注释。这通常是通过启发式方法来明确注释词汇关联，例如在Kipp等人（2007）。与手势共同出现的词是根据前景突出的存在来选择的，如果不清楚，则根据注释者的直觉。Caldognetto和Poggi, 2001, Caldognetto等人, 2004特别要求对手势的语义功能作进一步的分类，作为对共现语音的冗余、补充或辅助。许多注释系统已经与适合的注释软件共同发展（参见表3）。表2列出了各种注释模式的关键属性。

表3. 适合共同开发的注释模式需求的软件工具。

在这里插入图片描述

5.2 注释工具

除了注释模式，还开发了用于手势注释和分析的软件（ELAN：Brugman和Russel（2004），TASX：Gut和Milde（2003），EXMARaLDA。Schmidt（2004）或ANVIL：Kipp（2012））。所有这些都允许在不同的注释级别或层级上对音频和视频进行详细的分析和注释。通常可以将注释导入或导出到相关系统，例如针对深入语音分析的软件，如Praat（Boersma和Weenink，2008），或根据数据库处理的需要。各种工具都有各自的专业能力，例如用于运动捕捉的编码扩展和自动视频和音频识别。通常，注释系统是与软件共同开发的，或者软件是专门为满足特定转录系统的需要而设计的，因此，对注释系统的偏好可能是选择软件的一个很好的动机，例如，通过预定义的手势分类或链接注释层次的必要选项（参见表3）。然而，大多数注释模式应该足够灵活，可以与各种注释工具配合使用。

5.3 多模态语料库

由于视频记录和数据存储的技术限制，早期的手势研究往往不得不局限于对样本材料或案例研究的讨论，尽管Mertins等人（2000）已经以简洁的方式解决了多模态语料库建设的复杂性。Knight（2011）对现有语料库以及语料库建设中的挑战和限制做了很好的概述。近年来，根据不同研究问题的需要，随着技术的改进，如大型数据存储、视频跟踪和动作捕捉设备的出现，大量的多模态语料库已经被建立起来。值得注意的是，LREC研讨会系列已经围绕着多模态数据收集的主题而发展。8这些研讨会，解决了诸如注释模式和注释评估，以及数据存储和交换等话题（Kipp等人，2009）。建立一个多模态语料库需要在许多方面做出决定。这些包括参与者的数量（独白、对话、多方设置），记录或跟踪设备的数量和设置，如照相机、麦克风、动作捕捉系统或眼球追踪器，以及对话设置（如自由对话与任务导向的对话；朋友与陌生人；相同与不同性别/年龄/地位）。

所有这些决定都会影响信号的类型（是否显示身体的哪些部分，音频信号是否分离）以及交流数据的类型。此外，研究者必须牢记，录音环境的选择很可能会影响到入侵性的程度，从而影响到所得数据的生态有效性（Oertel等人，2013）。在语料库建设中，许多潜在的混淆因素往往被忽视。微妙的细节可能会影响数据，例如，使用某些椅子可能比其他椅子更允许做手势，不同的房间声学和气氛可能导致不同的互动风格。正因为如此，研究人员必须密切关注数据收集环境，以避免不必要的、尽管是可控的偏见。

众多的跟踪可能性和记录渠道会导致这些渠道之间的同步问题，也会导致数据还原和信息解释方面的问题。需要高质量的头部和运动跟踪以及语音识别的自动分析工具，以使大量的数据可以管理，同时控制入侵性。Kousidis等人（2012）讨论了解决其中一些问题的初步措施。注释多模态语料需要大量的时间。这可能解释了使用第5.1节中描述的更详细的转录模式的有限数量。正因为如此，免费的数据收集和促进语料库数据的可访问性和可互换性的倡议（例如AMI,9 CLARIN-D,10 HUMAINE11或SSPnet12）对研究界来说已经变得非常有价值。

5.4 协同语音手势的技术模型

由于手势已被证明有助于语音生成、对话管理和感知，对其功能和与语音共同生成的良好理解对于建立技术应用（如多模态对话模型和人工代理）也至关重要。充分的头部运动对提高人工代理的理解力和可接受性的影响已经得到了各种研究的支持（Kopp等人，2008年，Beskow等人，2007年，Granström和House，2007年，al Moubayed等人，2010年）。对于多模态对话系统和对话代理（Bergmann等人，2010年，Kipp和Martin，2009年），以及仿人机器人（DeSteno等人，2012年，Salem等人，2012年），手动手势的积极影响也被研究。这些研究已经报告了证据，表明虚拟代理或机器人的手势可以对感知的生活化、参与度、能力和可信度产生决定性的影响。此外，辅导员所做的手势已被证明可以支持新材料的学习（Bergmann和Macedonia，2013，Mayer和DaPra，2012）。

松散地对应于心理语言学的生产模型，生成和合成手势（手动或面部）共同言语行为通常被设想为三个主要步骤，以将给定的交际目标映射到图形行为动画中。(i) 交际内容规划，(ii) 行为实现规划，以及(iii) 手势实现。SAIDA的标准化倡议（Kopp等人，2006，Vilhjálmsson等人，2007）已经着手制定XML规范语言，用于描述这三个阶段之间的接口。FML，功能标记语言，和BML，行为标记语言。由于交际内容规划不在本综述的范围之内，因此在下面的段落中不会对其进行处理。

行为规划决定了在当前对话和话语背景下实现交际目标的行为形式。这个问题的解决在一定程度上取决于用于行为实现的方法。解决这个问题的不同方法已经发展起来。大多数现有的系统采用了基于词汇的方法来规划各种类型的共话手势（Cassell等人，2000，Krenn和Pirker，2004，Poggi，2001）。一个更灵活但在理论上更具挑战性的行为生成方式是生成模型，Heylen等人（2008）已将其用于头部运动。

同样，NUMACK系统（Kopp等人，2004）试图通过考虑人类手势组成的模式来克服基于词汇的手势生成的局限性。根据经验结果，视觉空间指称特征与形态学手势特征相联系。另一条研究路线是关注个体差异。Ruttkay（2007）赋予虚拟人以独特的风格，以显示出社会或种族群体的原型。同样，不同的风格被定义在意义到手势映射的字典中，并有可选的修改参数来指定一个手势的特征。Hartmann等人(2006)研究了对手势的修改，以便在保留原有语义的同时携带所需的表达内容。身体的表现力是用一组用于修改手势的小尺寸来定义的。这些是时空范围、流动性和力量。

一个越来越流行的研究方向是使用数据驱动的方法来模拟个体说话人的手势行为。Stone等人（2004年）将动作捕捉的事件与新的语音样本重新组合，以重新创建连贯的多模态语词。这样一来，交际表现的单元被重新安排，同时保留了时间上的同步性和交际上的协调性，这也是一个人自发的传递的特点。Neff等人（2008年）利用从注释的多模态行为中学习到的统计手势特征，在一个虚拟代理中产生了一种特定的角色手势风格，被认为是更加生动和自然。最近，Chiu和Marsella（2011年）使用顺序概率模型，从以前的运动和音频特征中生成手势运动。Sargin等人，2006年，Sargin等人，2008年也采取了通过分析进行合成的方法：通过平行HMM结构的Prosody驱动的头部手势分析，实现了从语音Prosody到头部手势的自动视听映射和手势生成。在Yehia等人（2002年）的研究中，头部运动、面部和声学特征从测量中获取，并使用线性回归模型从音调轮廓生成头部运动。

在生成标志性手势的综合方法中，Bergmann和Kopp（2009年）将概率数据驱动技术与贝叶斯决策网络中基于规则的模型驱动决策相结合。通过对单个说话人或一组说话人的数据进行学习，该网络能够根据关于参考物的视觉空间属性、对话环境或说话人的交流目标的输入来预测标志性手势的形式特征。这个模型被嵌入到一个更普遍的语音和手势生产架构中。以计算的方式制定模型，将言语和手势生产结合起来，使其能够从给定的交际和语境要求中预测言语和手势行为，这仍然是一项具有挑战性但必要的工作：它需要将理论模型中由于缺乏坚实的经验证据而经常保持隐含和模糊的机制明确化。通过使我们能够测试其预测的正确性，理论的实施可能会极大地促进我们对语音和手势如何互动的理解，无论是在说话人内部还是作为自然对话的一部分公开地互动。

行为实现的方法主要在它们采用的运动控制算法上有所不同。强调运动自然性的系统通常采用运动捕捉来记录人类演员所做的运动，并简单地重放它们作为运动控制的原始形式。使用这种技术，可以产生的运动范围受限于存储数据的范围。它已经发现其主要应用于制作行为，这些行为的形式是由一组有限的刻板动作的组合和调整预先定义的，或者只需要非常有限的适应，如呼吸或姿势摇摆（Neff等人，2008，Stone等人，2004）。通过运动控制算法，对运动进行某种形式的在线控制，使用关键帧、反运动学或插值等技术，可以实现更灵活的动画（Hartmann等人，2006）。程序性动画提供了最高的灵活性和生成能力。使用这种方法，运动控制是由专门的控制器在线进行的，并贯穿整个运动过程，这些控制器可以采用目标轨迹的显式模型或控制参数随时间流动的其他模型。这种技术通常用于生成具有非常具体的外部特征的行为，如标志性的手势（Bergmann和Kopp，2009）。最近的方法采用了顺序概率模型，将运动视为一些控制参数空间中的时变概率分布，通常采用潜变量来说明特征间的共变性（Lee和Marsella，2006）。一般来说，不同的方法对单个行为的适用性不同，需要结合起来才能合成令人信服的共同语言姿态。

手动手势的自动识别可以被看作是一个处理链，首先是捕捉手部运动的位置和方向，以及确定手部姿势的手指关节的角度。总的来说，这可以通过使用数据手套或安装在用户手上和手臂上的跟踪系统的标记的接触方法，或基于视频或红外摄像机的非接触方法来实现（Wu and Huang, 1999）。这些方法依赖于假设的手或身体模型与输入数据的拟合，随后可以读出特定的角度或位置向量。这些身体模型可以是运动学的，基于关节和肢体的骨骼结构；也可以是动态的，将运动描述为力和扭力的应用结果。身体模型很有帮助，因为它们提供了对缺失的传感器信息的估计、对运动轨迹的预测、对个人用户特征的适应，以及对不可能或不可靠的手势配置或身体运动的检测或拒绝。就像语音一样，手势识别也可以被看作是一个分割问题，指的是过滤出手势的表达阶段，并从传感设备提供的连续数据流中确定意义单元的问题。分割要么作为预处理步骤单独进行，要么作为识别模型的一个组成部分内置，例如在使用隐马尔可夫模型（HMM）的方法中。这些方法利用手臂的空间配置作为特征向量，并可能依赖于视频流的差异图像。这样，Eickeler等人（1998）对24个孤立的手势实现了约93%的识别率。HMM和ANN技术的组合也被成功用于从单眼视频图像中识别五种不同的动态手势（Corradini，2002）。如果依靠预处理，手势的语义被忽略了，明确的时空线索被利用来确定单元边界，如第一导数的符号变化（Wexelblat，1995），手部张力的局部最小值（Harling和Edwards，1997），或基于规则的全手配置或小动作的分组（Spoons等人，1993）。

对于头部手势，大多数系统集中在对点头和摇头的识别上，只有少数系统涉及其他手势类型。识别率通常非常好，点头和摇头的识别率高达100%（Morency等人，2005），更复杂的头部运动类型的识别率为87.3%（Akakin和Sankur，2011）。Bousmalis等人（2012）对头部手势识别系统进行了全面的回顾。

6. 结语

尽管最近人们对手势和语音交互的兴趣增加了，但我们仍然远远没有理解其确切的性质。不过，我们期望我们未来的理解将得益于现在普遍存在的技术工具，如注释软件和建立多模态语料库的廉价解决方案。然而，我们应该记住，如果没有有意义的解释和分析方法，单纯的数据收集是没有意义的。这些依赖于现有的模型和手势形状、运动、功能和处理的理论。同样地，如果理论不能得到充分的检验，那么它们的影响也不大。术语和概念的可量化操作化，以及机器人或虚拟代理中手势和语音处理的综合实现，为我们的模型和理论的正式和实证评估提供了宝贵环境。针对广泛的受众，我们希望能提供一个关于这个主题的全面概述。对于未来，我们希望加强关于语音和手势交互的跨学科对话，使我们整个研究界受益。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)