语音交互有哪些优势与劣势?

2023-11-06

转载自公众号【谈人工智能】,转载请联系授权

语音交互是指人与人、人与设备之间,通过自然语音进行信息传递的过程。人与人之间通过语音来传递信息、交流感情等等,其实就是一种最基本的人与人之间的语音交互。

为什么VUI这个概念(Voice User Interface)在最近几年又变得的火起来了呢?因为人们发现除了人与人之间可以通过语音来交互之外,已经可以慢慢地对一些智能设备(如手机、智能音箱、车载系统等),通过语音进行交互下达指令或者获得反馈等,所以现在的语音交互的概念已经不仅仅局限于人与人之间了。

尤其是对语音行业的研究来讲,我们的注意力更主要的是集中在人机交互上,所以很多时候VUI这个概念就是特指人机语音交互。

 

1. 语音交互的4点优势


那么,为什么我们要探讨人机语音交互呢?是因为语音交互本身独有的优势,我把它总结为这样四点的优势

一、语音的输入效率比较高

相比于传统的键盘输入、文字输入,语音输入的速度,语音输入的效率至少是传统输入方式的三倍以上,这个是在百度开放平台上做过的一个数据统计。

输入效率高,体现在以下几个方面:

1、通过语音去检索信息的效率会比较高,尤其是针对复杂的query

在这种输入方式不变的场景下,通过语音的交互效率会更高,比如说当我在家里看电影的时候,我可以直接对着电视机说出我要看的电视节目或者是电影名称。这种交互来讲,通过语音的方式,直接下达指令会更方便。

2、语音交互可以跨空间,对于跨空间的交互方式更加便捷

跨空间的含义,我们可以简单地理解为远距离的语音交互,这里的一般称之为远场语音交互或者是远讲,远场的意思是说我的说话人距离我的设备的麦克风的距离要比较远,一般来讲至少是1米以上,很多时候是3到5米,甚至是更远。

在这种跨空间的场景下,一般传统意义上的文字交互,很多时候是不可能操作的。比如,当距离智能音箱(手机)比较远的时候,不可能通过文字的方式去进行交互,所以在这种场景下,语音交互就显得更加必要、高效。

3、语音支持组合指令输出

即我们发出语音指令的时候,可以一次性的下达多条指令,然后由机器识别之后,分别去执行这些指令的意图。

举一个例子,以家居的场景为例,我要看一部电影,其实可以对我的电视机这样说:“播放周星驰的电影、电影要四星以上,并且都是免费观看的”。这样一句话当中,蕴含了多个层次的含义。

这样的话,通过语音,一句话就可以把我的多层次的指令通过组合的方式一起来下达,并且智能机器会通过解析我的指令含义,去依次调用相应的skill来满足我的指令的下达方式。

这些就是语音输入方式比传统输入方式效率高的原因。

二、解放双手和双眼,更安全

其实谈到解放双手,我们马上会想到车载场景。其实对于车载场景来讲,我们是绝对不可能在车上一边开车一边通过手机用手敲汉字的方式进行交互的,这个也是绝对不允许的。在车载场景里,如果你想设置导航、听音乐、听广播,也是必须要用语言来进行交互的。而在现在很多的汽车上,其实也都已经内置了车载语音交互的功能。

除了车载场景之外,还有其他的场景,比如说医疗场景:医生在跟病人或者病人家属沟通病情时,他可能同时双手还要去操作各种各样的复杂的医疗设备,那这时候,如果医生需要记录病历,通过语音的方式来做就是一个比较必要的一种方式了。

三、使用门槛低

其实我们每个人都有经验,我们人与人之间的交互,最早本来就是用语言进行交互的。一个还不会写字的小孩子在慢慢长大的过程当中,与父母与其他的朋友之间的交互,都是通过语音来进行的,这是一个我们人类天然就具备的交互能力。

尤其对于小孩子、一些老人、一些有视觉障碍的人群,他们更是没有办法通过文字的方式来进行交互,所以语音交互的方式会为这些人带来非常大的便利。此外,语音交互的学习成本比较低,它的交互方式更加自然,所以它的上手成本也比较低。

四、可以传递更多的声学信息

我们知道,一段语音不仅仅包含这段语音所承载的内容信息,还包括其他的信息,比如声纹信息、身份信息、性别信息(说这段话的人的是男是女)、年龄信息、情感信息(指的是人在说这段话的时候他的感情是怎么样的,它是生气的还是高兴的还是悲伤的)等等。

这些信息都可以通过一段语音信号借助各种技术把它解析出来。那么相比于传统文字的这种干巴巴的交互方式来讲,语音它能够传递的信息会更多。

 

2. 语音交互的3点劣势


这些就是语音交互的几点优势。但是,对于一种交互方式,尤其是人机语音交互这样一种新型的交互方式,自然也有一些劣势

一、接收效率比较低

在刚刚的分析中,我们一直是集中在语音输入的方式。而对于信息的接收,我们则是从输出的角度来讲的。语音的输出其实是一个线性的输出。

什么意思呢?也就是说当你在听别人说一段话的时候,你很有可能需要等到对方把这句话全部说完以后,或者是说完大部分以后,才能够理解对方想说的话是什么意思。

文字交互则不太一样。当我们在看一段文字的时候,我们很可能会跳过一些没有意义的文字,去直接掌握这段话的全局意思。可能大家会有这样的体验,在用微信的时候,相对于收到的语音消息,更愿意阅读一些文字的消息。

因为看一段文字,我们可以直接的很快速的去掌握这段文字的中心内容,而如果我要去听一段语音的话,那我必须要把这段语音从头到尾的完整的听完,我才能知道对方写了讲的是什么。所以这一点上,我们说语音输出是一个线性的输出,对于信息接收者来说,它的效率是比较低的。

二、环境复杂

我们面临的各种各样复杂的生活环境,这一点也是语音信号处理课程所要着重解决的一个问题。

我们每天都被各种复杂的环境所包围。这些环境里可能会包含着各种各样我们不需要或者是不想听到的声音。

当这些声音与我们想要听的那些声音交叠在一起的时候,就会对我们的交互体验产生非常大的影响,所以复杂的声学环境是我们在设计人机语音交互系统时,所必须考虑的一个问题。

三、用户的心理负担

这一点,也是对于语音交互设计者来说最难把握的一点。因为用户在实际使用这个人机交互系统的时候,他的很多行为往往是我们没有办法事先预期的。

对于同一个交互场景,不同人的交互方式很有可能会不一样。从用户的心理体验来说,可能会有一部分人的人机语音交互的习惯还没有培养起来,也可能会有一些人,他不太愿意对着机器去通过语音来说话,尤其是身处在一个比较开放的需要顾及个人隐私的场景的时候更是如此。

 

3. 总结


通过以上的内容,我们可以了解到语音交互的本身是有它的优势的,当然也有它不足的地方,而不足的地方正是需要我们去着重解决的一些问题。

特别感谢

本文整理自深蓝学院《语音信号处理》课程,感谢宋辉老师的细心讲解,以及深蓝学院提供的优质课程,再次感谢!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

语音交互有哪些优势与劣势? 的相关文章

  • 什么是LLM大语言模型?

    什么是LLM大语言模型 大语言模型 英文 Large Language Model 缩写LLM 也称大型语言模型 是一种人工智能模型 旨在理解和生成人类语言 它们在大量的文本数据上进行训练 可以执行广泛的任务 包括文本总结 翻译 情感分析等
  • GB28181设备接入端如何播放语音广播数据?

    技术背景 语音广播功能是GB28181设备接入端非常重要的功能属性 语音广播让终端和平台之间 有了实时双向互动 可以满足执法记录仪 智能安全帽 智能监控 智慧零售 智慧教育 远程办公 明厨亮灶 智慧交通 智慧工地 雪亮工程 平安乡村 生产运
  • Generative AI 新世界:大型语言模型(LLMs)概述

    在上一篇 Generative AI 新世界 文本生成领域论文解读 中 我带领大家一起梳理了文本生成领域 Text Generation 的主要几篇论文 InstructGPT RLHF PPO GPT 3 以及 GPT 4 本期文章我将帮
  • 【LLM】深入剖析 GOOGLE PALM 2:全面概述

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • 百度AI──自然语言处理使用教程

    百度AI 自然语言处理使用教程 情感倾向分析 创建自己的应用 python方式调用 安装Python SDK 创建一个 Python SDK客户端 配置AipNlp 调用接口 情感倾向分析 需要注意的几个点 完整代码 参考 创建自己的应用
  • [Transformer]A Survey of Transformers-邱锡鹏

    复旦邱锡鹏组最新综述 A Survey of Transformers A Survey of Transformers Transformers已经在人工智能诸多领域 如NLP CV 声音处理等方面取得进展 也受到学术界和工业界的广泛关注
  • Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models

    本文是LLM系列文章 针对 Recursively Summarizing Enables Long Term Dialogue Memory in Large Language Models 的翻译 递归总结在大型语言模型中实现长期对话记
  • MATLAB算法实战应用案例精讲-【自然语言处理】语义分割模型-DeepLabV3

    目录 1 DeepLab系列简介 1 1 DeepLabV1 1 1 1创新点 1 1 2 动机 1 1 3 应对策略 1 2 DeepLabV2
  • 2021年10月中旬—字节AI LAB NLP算法面试题(一)

    问题一 bert的架构是什么 目标是什么 输入包括了什么 三个embedding输入是怎么综合的 Bert的结构主要是Transformer的encoder部分 其中Bert base有12层 输出维度为768 参数量为110M Bert
  • 【学习笔记】开源中文对话预训练模型调研总结

    开源中文对话预训练模型调研 文章目录 开源中文对话预训练模型调研 1 CDial GPT 主要工作 LCCC数据集 数据清洗策略 基于规则的清洗 基于分类器的清洗 模型 输入表征 训练 2 GPT2 chitchat 3 EVA1 0 WD
  • 作为工具制造者的大型语言模型

    文章目录 摘要 1 简介 2 相关工作 3 LLM as Tool Maker LATM 3 1 制作新工具并重用它们 3 2 用Dispatcher处理流数据 4 实验 4 1 实验设置 4 2 工具制作阶段的有效性 4 3 LATM提高
  • Sentence-BERT论文阅读笔记

    目录 1 第一篇论文 Sentence BERT Sentence Embeddings using Siamese BERT Networks 1 1 论文基本信息 1 2 动机 1 3 模型 1 4 实验 1 4 1 训练所用的数据集
  • 【论文阅读】learning with noisy correspondence for cross-modal matching ------ 跨模态匹配,噪声对应

    注意 本博客非逐字逐句翻译论文 是作者阅读论文后根据自己的理解所写 预知论文详情 请参阅论文原文 论文标题 Learning with Noisy Correspondence for Cross modal Matching 作者 Zhe
  • AI会议排名_周志华

    AI会议排名 周志华 http blog sina com cn s blog 631a4cc40100xl7d html 南京大学周志华教授写的一个很经典的帖子 不过IJCAI能不能算成是no 1的会议有待商榷 不过总体还算客观 说明 纯
  • SparkSQL 操作数据库以及代码实践

    作者 禅与计算机程序设计艺术 1 简介 一 关于本文 SparkSQL是Apache Spark项目中用于处理结构化数据的开源模块 它提供了简单易用的API 能够将关系型数据库中的数据转换成DataFrame对象 方便进行各种分析查询 在实
  • 超详细!大模型面经指南(附答案)

    大模型应该算是目前当之无愧的最有影响力的AI技术 它正在革新各个行业 包括自然语言处理 机器翻译 内容创作和客户服务等 成为未来商业环境的重要组成部分 截至目前大模型已超过100个 大模型纵横的时代 不仅大模型越来越卷 就连大模型相关面试也
  • 大模型微调技巧:在 Embeeding 上加入噪音提高指令微调效果

    大家好 在去年分享过一篇ACL2022的文章 通过微调前给预训练模型参数增加噪音提高预训练语言模型在下游任务的效果方法 NoisyTune方法在BERT XLNET RoBERTa和ELECTRA上均取得不错的效果 那么通过加入噪音的方式
  • 探索人工智能中的语言模型:原理、应用与未来发展

    导言 语言模型在人工智能领域中扮演着重要的角色 它不仅是自然语言处理的基础 也是许多智能系统的核心 本文将深入研究语言模型的原理 广泛应用以及未来发展趋势 1 语言模型的原理 统计语言模型 基于概率统计的传统语言模型 如N gram模型 神
  • ACL 2024投递指南

    诸神缄默不语 个人CSDN博文目录 显然写这篇博客是因为我要投ACL了 TL DR ACL 2024是ARR提交制 workshop归workshop 最晚提交时间是2024年2月15号 在此之前可以随时撤回 4月15号出结果 4月20号确
  • yolov5无人机视频检测与计数系统(创新点和代码)

    标题 基于YOLOv5的无人机视频检测与计数系统 摘要 无人机技术的快速发展和广泛应用给社会带来了巨大的便利 但也带来了一系列的安全隐患 为了实现对无人机的有效管理和监控 本文提出了一种基于YOLOv5的无人机视频检测与计数系统 该系统通过

随机推荐