国家级表彰 | 小米人工智能实验室声学语音团队荣获“全国工人先锋号”荣誉称号...

2023-05-16

小米人工智能实验室声学语音团队代表王育军接受央视采访

4月27日,小米集团技术委员会人工智能实验室声学语音团队荣获由中华全国总工会颁发的“全国工人先锋号”荣誉称号。颁奖典礼在人民大会堂举行,小米声学语音技术总监王育军参加本次活动并代表团队领奖。这是对小米人工智能实验室声学语音团队取得的科技成果的肯定,也是对小米公司持续推动科技创新之路的激励。

1cdff2c91ceb0a7ca442ab1572f5e398.jpeg

王育军在接受央视采访时表示,为智能生活助手小爱同学装上“耳朵”和“嘴巴”,让它能听会说,是小米语音工程师的使命。这不仅给用户带来了智能生活的全新体验,同时赋予了听障人群同样的声音感知能力,为语音科技注入了温度。

889646c734b5afb807926602e56061ca.png

截至2022年底,小米人工智能实验室声学语音团队已将自研声学语音技术全面应用于小米手机、音箱、电视、耳机、手表、机器人等79个品类,共计5312款智能产品中。小爱同学月活跃用户数量为1.15 亿,是世界上最忙的语音助手之一。声学语音团队承接了小米手机×AIoT设备上日均12.6亿次请求,为4.59亿设备累计提供了2158亿次交互语音服务。

3e7d914ba50136b74a2ccba1b4fd75df.png

01

乘势而起:铸就顶尖语音团队

2017年,在时代浪潮推动下,小米顺势成立人工智能实验室,下设声学语音技术等多个研究方向。小米声学语音团队凭借真实的用户刚需和庞大的用户体量,一直和世界优秀团队并驾齐驱。团队成员中,有 5位工作 20 年以上的语音信号处理专家和20 名博士。

b9ed8baf6e4fefc57bcf58d58406bca6.jpeg

一直以来,团队不断迎接挑战,并在该领域持续创新。在语音识别、拾音唤醒、超级拟人语音合成、声音分析与重建、声纹识别、自动声学测量、独立空间音频技术中,产出了大量学术成果和工业最佳实践,回馈工业界和学术界。

团队将工作中积累的经验总结成学术论文,截至2022年,共有43篇被世界语音技术顶会收录。在国际语音技术挑战赛中,团队拿下了 6 项国际冠军、2 项亚军和2 项季军。2022年,团队《个性化情感化语音交互关键技术及产业化》获得北京市科技进步二等奖;《小米智能语音技术在手机实时通信中的应用》获得深圳人工智能行业应用奖……

这些成绩的取得,不仅证明团队在和声音交互业务紧密相关的技术领域领先世界,同时也为小米和中国智造行业赢得了荣誉。

02

能听会说:打造智能生活助手小爱同学

小米人工智能实验室声学语音团队在对语音技术不断深耕的过程中,不仅推出了语音识别技术和语音生成技术,使小爱同学从语音助手升级为具备“耳朵”和“嘴巴”的智能生活助手,还为障碍人士和老年人全力打造了小米闻声技术,不仅可以实现对话场景中实时语音和文字的互转,还让他们能够“看见”周围环境中的声音,助力无障碍交流。


  1    语音识别技术,让耳朵听得更准

语音识别技术是指让小米的智能产品拥有麦克风陈列设计的“耳朵”,可以倾听用户的指令和诉说。

小米的设备,无论是电视这样的大型家用设备,或是音箱、手机这样的小型或便携设备,都拥有多颗麦克风。利用这些麦克风组成的阵列,团队设计了利用声音波束指向目标说话人的算法和利用声源分离提升目标说话人声音质量的算法,最终形成了小米特有的中远距离(即60厘米到5米)清晰拾音算法。

麦克风阵列拾音算法包含:通过关键词叫醒语音助手的语音唤醒、识别哪位用户在说话的声纹识别、识别说话内容的语音识别、感知语音中蕴含的情绪、检测用户正在用哪种语言说话的语种识别、评价用户发音水平的口语评测、探究语音信号中的成分,并提高每种成分质量的语音成分分析与还原技术等。

7515582ed72b7277ab6b27930b39a7b7.png

在语音识别领域,声学语音组也在众多赛事中夺冠:

    • 2019年AIShell基金会CCF远场声纹挑战赛双冠军;

    • 2020年国际中文处理大会个性化语音唤醒上两项赛事冠军以及2022年IEEE多模态唤醒第一名;

    • 2021年国际口语技术大会儿童语音识别挑战赛冠军;

    • 2022年MagicHUB中文重口音语音识别冠军。

  2    语音生成技术,让嘴巴说得更好

在听得懂的基础上,团队为小米智能设备打造了和用户讲话的“嘴巴”,即语音生成技术。可以实现将文本转化成语音、 自动谱曲和编曲、歌曲合成等功能。

其中,小米自研的超级拟人语音合成技术能够模拟真人说话方式,复刻人类语音中的犹豫、停顿、变速等习惯,完美保留原始录音数据中的细微语气表达,使语音合成效果更加自然流畅。目前,该技术已经应用于无障碍领域,帮助语言障碍者打开了“有声”世界。

2400d17612e0e46035c00e8269b59857.png

而个性化歌唱技术依托AI语音的技术创新,通过复杂的语言和声学建模,使用户能够通过Text to speech引擎构建自己的声音个性,以此帮助不擅长、不敢唱歌的人克服障碍,让他们可以用歌声表达自己的情感。

cdcf44aea0d8c109c21550f808ba2860.png

有了“耳朵”和“嘴巴”,小爱同学就能够像人一样能听会说。例如,小米手机或者音箱有了“耳朵”,用户可以跟他们说“打开卧室空气净化器”,设备会用他们的“嘴巴”回复用户 “已为您打开净化器,不早了,早些休息”,省去了5次屏幕点击。

为了打造小爱同学灵敏的“耳朵” 和精致的“嘴巴”,团队进行了190多次语音唤醒建模,270多次语音识别声学和语言建模,110 多次语音合成建模……小米算法优化工程师为 55 类设备交付了 400 多个不同平台的模型和170版引擎。

03

科技向善:让技术更有温度

同时,小米一直致力于中国智能设备无障碍建设,语音团队为听障用户开发的“闻声技术”。通过小米闻声功能,一方面,可以让手机或平板电脑帮助他们“看到”其他人说话,另一方面也可以帮他们“看见”周围环境中的声音,例如警报声、敲门声等,赋予了听障用户同样的声音感知权利。

28ed73ffed52be1bf36a4aec72c0cd2b.jpeg

小米闻声的使用界面(左侧为对话模式,右侧为字幕模式)

除了小米闻声技术,“读屏”技术可以帮助视障人群“看到”屏幕上的内容;“聆听”技术为构音困难用户提供了个性化的语音识别,让他们能通过自己的声音和设备沟通;声音定制技术,为失去语言能力的用户捐献声音……作为语音合成技术在无障碍领域的典型应用案例,声音配型捐赠曾荣获2022年北京信息通信行业适老化及无障碍服务优秀案例,并获得“iF DESIGN AWARD 2023”服务设计类别的肯定。

未来,小米将不断打磨小爱同学语音技术,继续奋进、追求卓越,以平凡的工作成就不平凡之技术,让用户乐享智慧生活,感受科技带来的便捷与趣味。

843e629940071aa3c3b0a29c17cd4f40.gif

1351ad23a6f8f3fe349680b4358aa82f.png

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

国家级表彰 | 小米人工智能实验室声学语音团队荣获“全国工人先锋号”荣誉称号... 的相关文章

  • ROSBAG解析bag包教程

    一 软件安装教程 1 安装rosbag xff1a https www cnblogs com arkenstone p 6676203 html 2 安装mjepgtools和ffmpeg sudo apt get install mje
  • 双电机同步PID调试方法(二)

    由于双电机的PID上升曲线难以完全重合 xff0c 造成左右电机速度不一致 本文为了解决该问题设计了一种方法 主要思想是将不同速度对应的PWM占空比曲线拟合出来 xff0c 减1000 xff08 总10000 xff09 占空比后作为预设
  • exe打包成安装包

    前面介绍了如何将python代码打包成可执行文件 xff0c 这里再介绍一下如何将exe打包成安装包 一 安装InstallShield2015 百度云网址 xff1a https pan baidu com s 1fFGDeczPduWa
  • Python 打包成 wheel

    1 编写 setup py 在项目的根目录下外面一个文件夹创建 96 setup py 96 96 name 96 xff1a 指的是你打包后发布的名称 xff08 如 96 numpy 96 和 96 torch 96 xff09 96
  • plugins插件使用例程

    最近在看一个pyqt写的工具软件 xff0c 项目中大量使用plugins xff0c 所以了解了一下plugins的功能机制 下面简单分享一个例程 xff0c 代码结构如下 main py platform py init py plug
  • pycharm中.gitignore无效

    1 打开pycharm的命令行 xff0c 输入以下指令 git rm r cached git add 2 再次在pycharm上 xff0c 点击commit 原因 xff1a 这是因为pycharm会自动运行git add 的功能 x
  • Jetson Orin&Nx&Nano平台 FPDlink Ⅲ相机采集---双目场景应用

    1 前言 基于上次在淘宝上采购的FPDlink 相机采集套件使用一段时间之后 不少人对此方案很感兴趣的 又激发了我继续写的激情 上次帖子链接如下 Jetson Orin平台多路 FPDlink 相机采集套装推荐 bingdund的博客 CS
  • SBUS协议:SBUS解析与合成

    在说协议之前 xff0c 我想强调一点 xff1a 信号要取反 xff0c 硬件取反 xff01 xff01 xff01 xff01 xff01 至于为什么强调 xff0c 我会在后面解释 xff0c 你们先记住 SBUS协议 xff1a
  • 上海灵信视觉A4控制板

    资料准备 xff1a 1 LED Player上位机控制 xff1a em span style font size 12px http www 168led com AjaxFile DownLoadFileNew aspx FilePa
  • stm32串口一直进USART1_IRQHandler

    今天在使用USART模块 xff0c 遇到了一些问题并解决了 xff0c 于是发贴共享 问题描述 xff1a 在使用USART做串口通讯时 xff0c 我只把接收中断打开 xff0c 并设置抢占优先级为最低一个级别 xff0c 而接收中断上
  • tensorflow载入报错Process finished with exit code -1073741819 (0xC0000005)

    这几天准备在现有的软件里加上caffe来测试一种新算法 发现windows下python3 6安装caffe是真的难 xff0c 只能装好python2 7的版本就放弃了 回来继续完善软件 xff0c 又发现软件里的tensorflow不能
  • python项目打包(自定义dll) anaconda3+pyinstaller

    目前手上有一个python 43 pyqt的项目需要打包 xff0c 所以查了一下打包的方法 下面介绍一下具体步骤 xff1a python打包有很多方法 xff0c py2exe xff0c pyinstaller等等 xff08 其实我
  • Docker(六)同一镜像有多个Tag情况下,执行 docker rmi 镜像ID 指令无法删除

    删除方法一 docker rmi f 镜像ID 删除方法二 docker rmi repository tag 参考 xff1a 1 https www imooc com article 35040
  • 《ROS机器人开发实践(胡春旭)》第十章MoveIt!机械臂控制 学习笔记

    r 在学习 ROS机器人开发实践 胡春旭 第10章的MoveIt xff01 时 xff0c 因为在自己创建的工作空间中没有下载作者的源代码 xff0c 所有有以下几个问题 xff1a 1 使用moveit setup assistant时
  • Android 根据网络分析运营商信息

    我们想获取手机的运营商信息 通常都会去调用系统的TelephonyManager类的取数据 但是很多时候可能取不到卡的信息 xff08 例如双卡手机和一些特殊卡 xff09 xff0c 这样就区别不了运营商了 但是有时候我们的需求要进行不通
  • 简单又好看的按钮,扁平化按钮。

    今天分享一下流行的扁平化按钮 完全不需要用到图片哦 效果图如下 xff1a 里面有2个按钮都是一样的模式 只要修改的色值就可以 下面跟我来更新你的UI吧 首先编写 button xml 代码如下 lt xml version 61 34 1
  • Android 获取运营商信息(完整版)-解决高通,MTK等双卡问题

    由于国内的运营商问题 xff0c 双卡手机获取IMSI号问题要根据厂商API 来实现 下面我们就来做一套完整的分析运营商获取IMSI号逻辑 1 xff0c 首先我们要判断手机的平台 1 1 xff0c 判断手机是否MTK平台 public
  • AstarPathfindingProject 中RVO碰撞体扩展

    原本库中只有矩形RVO碰撞体 xff0c 如果要添加自己的需要继承RVOObstacle抽象类 xff0c 重写里面的方法 例如下面的圆柱形碰撞 using UnityEngine if UNITY EDITOR using UnityEd
  • Android中抓取手机视频流数据。

    目前实时抓取手机视频数据有2种方法 xff0c 一种是通过camera的回调获取源数据 xff0c 这里获取的源数据是没有编码的数据 有的人发送yuv数据然后在那绘制图片 xff0c 也说视频聊天 xff0c 真是可笑 这种方式是可是实现视
  • Android 使用AudioRecord录音相关和音频文件的封装

    在Android中录音可以用MediaRecord录音 xff0c 操作比较简单 但是不够专业 xff0c 就是不能对音频进行处理 如果要进行音频的实时的处理或者音频的一些封装 就可以用AudioRecord来进行录音了 这里给出一段代码

随机推荐

  • Android 中使用MediaRecorder进行录像详解(视频录制)

    在这里给出自己的一个测试DEMO xff0c 里面注释很详细 简单的视频录制功能 package com video import java io IOException import android app Activity import
  • Android手机中获取手机号码和运营商信息

    代码如下 xff1a package com pei activity import android app Activity import android os Bundle import android view View import
  • C语言下划线开头的函数

    首先 xff0c C 43 43 里关于下划线的问题是源于C语言 xff0c 因为C 43 43 允许用extern C 来修饰代码以C语言语法方式编译 然后说C语言里的下划线 xff1a C语言确实允许以下划线开头的函数存在 xff0c
  • 校验和计算方法

    1 说明 xff1a 1 校验和覆盖的内容 xff1a IP校验和 xff1a IP首部 ICMP校验和 xff1a ICMP首部 43 ICMP数据 xff1b UDP TCP校验和 xff1a 首部 43 数据 43 12个字节伪首部
  • 布谷鸟算法浅谈与简单应用

    简介 布谷鸟算法是由剑桥大学Xin She Yang教授和S Deb于2009年提出的一种新兴的启发算法 xff0c 是一种通过模拟自然界当中布谷鸟 xff08 也就是杜鹃 xff0c 故该算法也称为杜鹃算法 xff09 在繁育后代的行为而
  • torchvision中inception v3的实现

    一 torchvision中inception v3的网络结构 论文中给的结构如下图所示 但是torchvision中的inception v3结构中并不是这么实现的 下面解释一下torchvision中的inception v3结构 xf
  • 实践 基于Arduino 的 平衡车

    完成样子 因为只是学习验证 xff0c 没用电烙铁 xff0c 只用了面包板来连接各个组件 xff0c 中间用扎带固定 xff08 不稳定 xff09 完成后能基本保持平衡 xff0c 但太大力去推容易倒 平衡原理 通过负反馈实现平衡 xf
  • CMake入门-04-自定义编译选项

    工作环境 系统 xff1a macOS Mojave 10 14 6CMake Version 3 15 0 rc4 Hello World 自定义编译选项 CMake 允许为项目增加编译选项 xff0c 从而可以根据用户的环境和需求选择最
  • Linux 驱动开发简单实例

    Xiuye XY于 2021 08 03 19 17 07 发布343 收藏 3 分类专栏 xff1a 笔记 C C 43 43 Linux 版权 编辑笔记同时被 3 个专栏收录正在上传 重新上传取消 128 篇文章0 订阅 订阅专栏 编辑
  • ros下编译安装package

    原文地址 配置Release目录 catkin config install修改CMakeList txt文件 修改节点中CMakeLists txt文件 假设此处我们的节点项目名称为 test node 即CMakeLists txt中p
  • 什么是解耦?

    什么是解耦 解耦就是用数学方法将两种运动分离开来处理问题 对项目划分为多个模块这种做法你有什么看法 xff1f 优势 劣势有哪些 xff1f 多模块化项目优势在于 xff1a 提高代码的重用率 xff0c 可维护性高 xff0c 架构灵活
  • HDFS-Tiering 数据分层存储

    1 背景 随着小米业务迅猛发展 xff0c 存储到 HDFS 集群的数据量不断增大 xff0c 存储成本也不断攀升 尤其是海外 HDFS 集群每 GB 数据的成本是国内集群的 10 倍左右 xff0c 如何优化海外集群的存储成本变得非常迫切
  • 米家插件平台的技术实践之路

    2016年小米正式发布米家品牌 xff0c 此后米家开始接入第三方的智能硬件产品 xff0c 小米的IoT生态也迎来了快速发展 截止到2020年Q3 xff0c 小米AIoT平台已连接的IoT设备 xff08 不包括智能手机及笔记本电脑 x
  • 拥抱开源 | Xiaomi Vela团队成果连连,喜讯不断

    Xiaomi Vela是基于开源实时操作系统NuttX打造的物联网操作系统 xff0c Vela可以在各种物联网硬件上提供统一的软件平台 xff0c 通过丰富的组件和标准化的软件框架 xff0c 打通碎片化的物联网应用场景 今年Xiaomi
  • 将开源进行到底!小米新一代Kaldi荣获2022数博会“领先科技成果”奖

    5月26日 xff0c 数博会开幕式当天揭晓了 2022中国国际大数据产业博览会数博发布之领先科技成果 奖 xff0c 小米公司 新一代Kaldi 项目 xff0c 凭借全自研的创新成果和突出的社会价值 xff0c 获得评委会一致认可 xf
  • 小米AI实验室4篇论文入选语音技术顶会INTERSPEECH 2022

    滴滴 重磅消息新鲜出炉 xff01 xff01 全球语音领域顶级会议 INTERSPEECH 2022公布了论文入选名单 xff0c 小米 AI 实验室4篇论文被接收 INTERSPEECH 是由国际语音通信协会ISCA组织的语音领域的顶级
  • 干货 | 足式机器人运动控制发展方向——轨迹优化

    运动控制技术的进步使得足式机器人的运动能力更强 xff0c 而近来轨迹优化作为主流学术研究方向 xff0c 能够为足式机器人运动控制的发展提供可能的指引 本期技术干货 xff0c 我们邀请到了小米工程师徐喆 xff0c 向我们介绍足式机器人
  • GPS定位

    链接 天地图 xff0c 免费的 xff0c API开放的地图定位系统 链接 RTK和GPS定位 链接 rtk 精确定位 简介 链接 GPS RTK PPK三种定位技术的原理及应用 双频定位 xff0c 双频信号协同工作 xff0c 提供亚
  • 清华软件论坛 | 推动移动传感的极限:AIoT时代的智能健康和数字家庭

    清华软件论坛 xff0c 是在清华大学软件学院成立20周年之际创立的 xff0c 旨在探索软件科学基础理论 创新软件前沿技术 思辩软件工程方法 促进学科交叉融合 xff0c 持续提升清华软件发展水平 xff0c 清华大学软件学院打造 清华软
  • 国家级表彰 | 小米人工智能实验室声学语音团队荣获“全国工人先锋号”荣誉称号...

    小米人工智能实验室声学语音团队代表王育军接受央视采访 4月27日 xff0c 小米集团技术委员会人工智能实验室声学语音团队荣获由中华全国总工会颁发的 全国工人先锋号 荣誉称号 颁奖典礼在人民大会堂举行 xff0c 小米声学语音技术总监王育军