国家级表彰 | 小米人工智能实验室声学语音团队荣获“全国工人先锋号”荣誉称号...

2023-05-16

小米人工智能实验室声学语音团队代表王育军接受央视采访

4月27日，小米集团技术委员会人工智能实验室声学语音团队荣获由中华全国总工会颁发的“全国工人先锋号”荣誉称号。颁奖典礼在人民大会堂举行，小米声学语音技术总监王育军参加本次活动并代表团队领奖。这是对小米人工智能实验室声学语音团队取得的科技成果的肯定，也是对小米公司持续推动科技创新之路的激励。

王育军在接受央视采访时表示，为智能生活助手小爱同学装上“耳朵”和“嘴巴”，让它能听会说，是小米语音工程师的使命。这不仅给用户带来了智能生活的全新体验，同时赋予了听障人群同样的声音感知能力，为语音科技注入了温度。

截至2022年底，小米人工智能实验室声学语音团队已将自研声学语音技术全面应用于小米手机、音箱、电视、耳机、手表、机器人等79个品类，共计5312款智能产品中。小爱同学月活跃用户数量为1.15 亿，是世界上最忙的语音助手之一。声学语音团队承接了小米手机×AIoT设备上日均12.6亿次请求，为4.59亿设备累计提供了2158亿次交互语音服务。

乘势而起：铸就顶尖语音团队

2017年，在时代浪潮推动下，小米顺势成立人工智能实验室，下设声学语音技术等多个研究方向。小米声学语音团队凭借真实的用户刚需和庞大的用户体量，一直和世界优秀团队并驾齐驱。团队成员中，有 5位工作 20 年以上的语音信号处理专家和20 名博士。

一直以来，团队不断迎接挑战，并在该领域持续创新。在语音识别、拾音唤醒、超级拟人语音合成、声音分析与重建、声纹识别、自动声学测量、独立空间音频技术中，产出了大量学术成果和工业最佳实践，回馈工业界和学术界。

团队将工作中积累的经验总结成学术论文，截至2022年，共有43篇被世界语音技术顶会收录。在国际语音技术挑战赛中，团队拿下了 6 项国际冠军、2 项亚军和2 项季军。2022年，团队《个性化情感化语音交互关键技术及产业化》获得北京市科技进步二等奖；《小米智能语音技术在手机实时通信中的应用》获得深圳人工智能行业应用奖……

这些成绩的取得，不仅证明团队在和声音交互业务紧密相关的技术领域领先世界，同时也为小米和中国智造行业赢得了荣誉。

能听会说：打造智能生活助手小爱同学

小米人工智能实验室声学语音团队在对语音技术不断深耕的过程中，不仅推出了语音识别技术和语音生成技术，使小爱同学从语音助手升级为具备“耳朵”和“嘴巴”的智能生活助手，还为障碍人士和老年人全力打造了小米闻声技术，不仅可以实现对话场景中实时语音和文字的互转，还让他们能够“看见”周围环境中的声音，助力无障碍交流。

1 语音识别技术，让耳朵听得更准

语音识别技术是指让小米的智能产品拥有麦克风陈列设计的“耳朵”，可以倾听用户的指令和诉说。

小米的设备，无论是电视这样的大型家用设备，或是音箱、手机这样的小型或便携设备，都拥有多颗麦克风。利用这些麦克风组成的阵列，团队设计了利用声音波束指向目标说话人的算法和利用声源分离提升目标说话人声音质量的算法，最终形成了小米特有的中远距离（即60厘米到5米）清晰拾音算法。

麦克风阵列拾音算法包含：通过关键词叫醒语音助手的语音唤醒、识别哪位用户在说话的声纹识别、识别说话内容的语音识别、感知语音中蕴含的情绪、检测用户正在用哪种语言说话的语种识别、评价用户发音水平的口语评测、探究语音信号中的成分，并提高每种成分质量的语音成分分析与还原技术等。

在语音识别领域，声学语音组也在众多赛事中夺冠：

- 2019年AIShell基金会CCF远场声纹挑战赛双冠军；
- 2020年国际中文处理大会个性化语音唤醒上两项赛事冠军以及2022年IEEE多模态唤醒第一名；
- 2021年国际口语技术大会儿童语音识别挑战赛冠军；
- 2022年MagicHUB中文重口音语音识别冠军。

2 语音生成技术，让嘴巴说得更好

在听得懂的基础上，团队为小米智能设备打造了和用户讲话的“嘴巴”，即语音生成技术。可以实现将文本转化成语音、自动谱曲和编曲、歌曲合成等功能。

其中，小米自研的超级拟人语音合成技术能够模拟真人说话方式，复刻人类语音中的犹豫、停顿、变速等习惯，完美保留原始录音数据中的细微语气表达，使语音合成效果更加自然流畅。目前，该技术已经应用于无障碍领域，帮助语言障碍者打开了“有声”世界。

而个性化歌唱技术依托AI语音的技术创新，通过复杂的语言和声学建模，使用户能够通过Text to speech引擎构建自己的声音个性，以此帮助不擅长、不敢唱歌的人克服障碍，让他们可以用歌声表达自己的情感。

有了“耳朵”和“嘴巴”，小爱同学就能够像人一样能听会说。例如，小米手机或者音箱有了“耳朵”，用户可以跟他们说“打开卧室空气净化器”，设备会用他们的“嘴巴”回复用户 “已为您打开净化器，不早了，早些休息”，省去了5次屏幕点击。

为了打造小爱同学灵敏的“耳朵” 和精致的“嘴巴”，团队进行了190多次语音唤醒建模，270多次语音识别声学和语言建模，110 多次语音合成建模……小米算法优化工程师为 55 类设备交付了 400 多个不同平台的模型和170版引擎。

03 科技向善：让技术更有温度

同时，小米一直致力于中国智能设备无障碍建设，语音团队为听障用户开发的“闻声技术”。通过小米闻声功能，一方面，可以让手机或平板电脑帮助他们“看到”其他人说话，另一方面也可以帮他们“看见”周围环境中的声音，例如警报声、敲门声等，赋予了听障用户同样的声音感知权利。

小米闻声的使用界面（左侧为对话模式，右侧为字幕模式）

除了小米闻声技术，“读屏”技术可以帮助视障人群“看到”屏幕上的内容；“聆听”技术为构音困难用户提供了个性化的语音识别，让他们能通过自己的声音和设备沟通；声音定制技术，为失去语言能力的用户捐献声音……作为语音合成技术在无障碍领域的典型应用案例，声音配型捐赠曾荣获2022年北京信息通信行业适老化及无障碍服务优秀案例，并获得“iF DESIGN AWARD 2023”服务设计类别的肯定。

未来，小米将不断打磨小爱同学语音技术，继续奋进、追求卓越，以平凡的工作成就不平凡之技术，让用户乐享智慧生活，感受科技带来的便捷与趣味。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)