小米AI实验室4篇论文入选语音技术顶会INTERSPEECH 2022

2023-05-16

滴滴——重磅消息新鲜出炉!! 

89e74ce00d3edf42515f791a5373f268.png

88a7d53b97fe9a0e6d0c2cd4a9a4c410.png

全球语音领域顶级会议 INTERSPEECH 2022公布了论文入选名单,小米 AI 实验室4篇论文被接收。INTERSPEECH 是由国际语音通信协会ISCA组织的语音领域的顶级会议之一,也是全球最大的综合性语音领域的科技盛会,在业内享有极高的声誉,对参与企业和单位有着严苛的准入门槛要求。

eac6b4771eebdc10ba7c763cd1424aa1.png

1d927cf8f17267a4148ba5c4d267a4b5.png

高手云集的技术宴,小米工程师究竟在语音、声学技术领域显露哪些高招?论文亮点,都在这里!

01 

《UniKW-AT: Unified Keyword Spotting and Audio Tagging》

《UniKw-AT:统一的唤醒和环境识别 》

作者:Dinkel H*,王永庆*,闫志勇*,张俊博,王育军

目前市场上所使用的绝大多数智能助手是通过唤醒被激活。唤醒识别是在语音行业里一个比较重要的服务。而除了唤醒以外,最近也有其他服务对使用者有所帮助,这种服务是“环境识别”,专门给有听力障碍的人群提供环境声音识别的服务。但目前为止,它们依然是独立存在的服务,即唤醒模型和环境识别模型。而在这一篇论文中,介绍了一个能够统一两个任务/服务的新方法。

e99b95bfec6e8536e9468f61efd10388.png

这个新方法的优点具体有以下几点:

  1. 唤醒模型能理解环境,提升唤醒模型的鲁棒性*

  2. 模型小和推理时间短适合设备端运行;

  3. 降低误唤醒率,特别在复杂唤醒下,如:有音乐环境音、嘈杂声等;

  4. 唤醒时模型也可以提供环境信息,如:小爱同学+下雨声 ,或小爱同学+孩童声,即唤醒时可分辨出此刻发出声音的唤醒人是儿童。

鲁棒性*:Robust的音译,也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。

02 

《Exploring Representation Learning for Small-Footprint Keyword Spotting》

《基于表征学习的语音唤醒》

作者:崔凡,郭理勇,王全东,高鹏,王育军

这篇论文针对数据和计算资源受限的语音唤醒任务,设计了一种结合预训练模型和对比学习的轻量级语音唤醒方法。首先,WVC(Wav2Vec constraint module)模块利用Wav2Vec预训练模型约束唤醒模型学习帧级别的通用特征表示;其次,LGCSiam(Local-global contrastive siamese networks) 模块提出了一种对偶自学习结构进行句级别的表征学习。

结合以上方法,大量非同源无标签数据可被用于唤醒模型训练,进而提升唤醒模型的效果。实验证明,利用同源无标注或非同源数据进行表征学习,都能极大的提升数据受限情况下的语音唤醒效果。

f2d358d606b81f386883b74c93bad9d2.png

此研究的主要优势是,基于预训练模型的约束模块和局部与全局对偶学习模块来进行表征学习,能够提升资源受限的语音唤醒任务能力(这里的资源受限主要是指训练数据有限和设备计算资源有限)。因为获取同源有标注的训练数据成本较高,此方法可以利用预训练模型,在训练数据资源有限的情况下,提升模型的泛化性;对于设备计算资源有限的情况,可以利用teacher-student训练提升模型的表达能力。

03 

BIT-MI System to Non-intrusive Speech Quality Assessment Challenge in Online Conferencing Applications》

《针对在线会议的无参考语音质量评估系统》

作者:刘淼,王晶,徐亮,张戬骞,李世聪,相非

语音质量是通信业务的核心体验,对语音的在线质量监测一直以来都是行业难题之一。在本文中,研究者们结合传统信号处理与听觉主观感知机制,提出了一种新的基于深度学习神经网络,适用于线上业务的实时无参考语音通话质量评估的方法,以此对实时语音通信进行质量评价。

经测试验证,此算法与语音质量评测方法的标准基线系统相比在各项指标上都有明显提升。其主要应用场景针对如今需求日益增长的线上会议场景,能够在实时通信交互的同时对于线上通信语音质量进行实时评估,以期改善语音通信的质量。

4332c9c6c22297b3a4c1c9c5ceeb754d.png

本文中实时无参考语音通话质量评估方法的优势如下:

  1. 相较于传统的有参考质量评估方法,本算法中采用的无参考方法能够更好地降低运算时延与模型开销,提供更适用于线上会议交互任务需求的应用方案;

  2. 在主要应用场景(线上会议场景)之外,其算法在其他的应用场景上具有较好的泛化性能,对于日常通话,视频聊天,在线直播等多种场景中均有较好的适用性;

  3. 其线上实时运算的特性支持这项技术能够轻量级部署在各种移动终端与智慧互联终端上,例如车载网络、智能家居、可穿戴设备等,通过其低时延的语音质量监测业务提升通话质量与用户体验。

现阶段此项目主要应用于接收端的下行质量评估,后续研发过程当中,此项目的应用场景将得到进一步扩展,有望应用于上行质量评价当中。

04 

《Pruned RNN-T for Fast, Memory-Efficient ASR Training》

《Pruned RNN-T:更快更省内存的训练》

作者 : 匡方军,郭理勇,康魏,林珑,罗明双,姚增伟,Daniel Povey

RNN-T是语音识别中最流行的模型之一,因其天然地支持实时识别而得到广大研究者的青睐。然而,常规RNN-T损失函数的计算既慢又耗内存,这极大影响了此类模型的实用性。研究者们在本论文中提出的Pruned RNN-T损失函数可有效解决这个问题。

Pruned RNN-T的基本思想是,只计算联合网络(Joiner)中那些对最终损失函数有显著贡献的(t,u)点对。为此团队进行了两次损失函数的计算,如图2所示,第一次计算基于一个可快速计算的“平凡”联合网络,研究者们利用它的输出可求得哪些(t, u)点对是有重要贡献的,然后,在这些重要点对上做第二次运算,得到最终的Pruned RNN-T损失函数。在整个过程中,不需要分配像(N,T,U,V)这样大的四维矩阵,从而实现提速和减少内存的目的。

faa9310dfb7bd9e5951abb5fb15f5724.png

图1. RNN-T和Pruned RNN-T Lattice对比

594870389e5b104725f18372a51ba790.png

图2. Pruned RNN-T损失函数计算流程图

经过研究者们评测,发现与Pytorch中的RNN-T损失函数相比,Pruned RNN-T损失函数在只使用其五分之一内存的情况下,获得了约15倍的计算速度提升。在实际的语音识别模型训练中(conformer-transducer模型),与Pytorch RNN-T损失函数相比,使用Pruned RNN-T损失函数依然能将训练速度提升1倍。这极大地降低了RNN-T模型的训练时间,增加了RNN-T模型的实用性。

05 

在探索中超越,小米离用户更近的语音、声学技术是什么?

近年来,小米在语音、声学技术上的积累日渐成熟,并逐渐落地在小米的产品中。

从2017年到2022年,“小爱同学”已经从语音助手逐步升级为智能生活助手,小米工程师所关注的也不止于用户所提出的需求,更有用户的潜在所需与具体情境。那么,一个贴近用户生活、尊重用户情感的“小爱”究竟内含何种技术力量呢?

5b1cff93bae3c1989de2770e9b8ff4f4.png

从语音技术的角度来看,小米工程师倾力于打磨小爱同学的“耳朵”和“嘴巴”,让它能听会说。使用自研的多麦克风“端到端”语音处理,多模态拾音,情绪感知,环境音感知,让小爱同学能听得更远更清晰;自研的语音唤醒技术实现了手机端语音误唤醒率低至0.49%。在对语音技术不断深耕的过程中,我们不仅首发了手机声音复刻、超级拟人语音生成技术,让小爱同学说出更自然流利富有情感的话语;还首发了歌声定制技术,让用户只需要使用20句话,就可以用自己或者自己亲人的声音合成歌曲。在这些技术的强大支撑下,小爱同学接连上线了家庭传声、声纹识别、跨设备控制、AI通话、AI读屏以及超级拟人音色等功能。

此外,在声学技术层面,我们开展了通话降噪、声场控制、智能感知、音频处理、声学测量等五个方向的研究工作,为小米手机及IoT全生态硬件产品提供了智能声学基础算法支撑,打造业界领先的音频体验。例如,强风噪音抑制技术,实现了耳机用户在复杂声音环境中的清晰通话,而协同唤醒的智能多设备应答,更是规避了“一呼百应”的问题。目前,AI通话降噪、自适应主动降噪、协同唤醒、空间音频、协同放音、扬声器均衡等算法达到行业领先水平,已应用于小米手机、电视、小爱、耳机、音箱、IoT等60余款产品,广受用户好评。

小米产品功能的不断提升源自于小米工程师对人文关怀的追求,小爱同学不仅是机器,更是能陪伴大家的伙伴。未来,小米也将持续守护每一个用户的生活,以更智能的技术创造更加贴心的语音体验,聆听情绪,服务需求。

END

aa3b11c7fbd2a2996402ceed4b5aa118.gif

9bb400096aa1c865bf9f1beed2642594.png

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

小米AI实验室4篇论文入选语音技术顶会INTERSPEECH 2022 的相关文章

  • 【搞定算法】常见算法题分类总览

    博主秋招提前批已拿百度 字节跳动 拼多多 顺丰等公司的offer xff0c 可加微信 xff1a pcwl Java 一起交流秋招面试经验 xff0c 可获得博主的秋招简历和复习笔记 完善中 由于本人平时刷题比较零散 xff0c 有时候找
  • 堆、栈的储存内容

    Java的JVM的内存可分为3个区 xff1a 堆 heap 栈 stack 和方法区 method 堆区 1 存储的全部是对象 xff0c 每个对象都包含一个与之对应的class的信息 class的目的是得到操作指令 2 jvm只有一个堆
  • 某32位系统下, C++程序,请计算sizeof 的值.

    某32 位系统下 C 43 43 程序 xff0c 请计算 sizeof 的值 void Foo 1 char str 100 cout lt lt 34 Foo 1 34 lt lt sizeof str lt lt endl char
  • python-pcl安装及使用

    在开始前 xff0c 先说明一下 xff0c pcl的库安装不简单 xff0c 不仅需要pip安装 xff0c 还需要安装C 43 43 的pcl库 xff0c 所以整个流程会比较漫长 鉴于官方参考网站的python pcl太麻烦 xff0
  • ROSBAG解析bag包教程

    一 软件安装教程 1 安装rosbag xff1a https www cnblogs com arkenstone p 6676203 html 2 安装mjepgtools和ffmpeg sudo apt get install mje
  • 双电机同步PID调试方法(二)

    由于双电机的PID上升曲线难以完全重合 xff0c 造成左右电机速度不一致 本文为了解决该问题设计了一种方法 主要思想是将不同速度对应的PWM占空比曲线拟合出来 xff0c 减1000 xff08 总10000 xff09 占空比后作为预设
  • exe打包成安装包

    前面介绍了如何将python代码打包成可执行文件 xff0c 这里再介绍一下如何将exe打包成安装包 一 安装InstallShield2015 百度云网址 xff1a https pan baidu com s 1fFGDeczPduWa
  • Python 打包成 wheel

    1 编写 setup py 在项目的根目录下外面一个文件夹创建 96 setup py 96 96 name 96 xff1a 指的是你打包后发布的名称 xff08 如 96 numpy 96 和 96 torch 96 xff09 96
  • plugins插件使用例程

    最近在看一个pyqt写的工具软件 xff0c 项目中大量使用plugins xff0c 所以了解了一下plugins的功能机制 下面简单分享一个例程 xff0c 代码结构如下 main py platform py init py plug
  • pycharm中.gitignore无效

    1 打开pycharm的命令行 xff0c 输入以下指令 git rm r cached git add 2 再次在pycharm上 xff0c 点击commit 原因 xff1a 这是因为pycharm会自动运行git add 的功能 x
  • Jetson Orin&Nx&Nano平台 FPDlink Ⅲ相机采集---双目场景应用

    1 前言 基于上次在淘宝上采购的FPDlink 相机采集套件使用一段时间之后 不少人对此方案很感兴趣的 又激发了我继续写的激情 上次帖子链接如下 Jetson Orin平台多路 FPDlink 相机采集套装推荐 bingdund的博客 CS
  • SBUS协议:SBUS解析与合成

    在说协议之前 xff0c 我想强调一点 xff1a 信号要取反 xff0c 硬件取反 xff01 xff01 xff01 xff01 xff01 至于为什么强调 xff0c 我会在后面解释 xff0c 你们先记住 SBUS协议 xff1a
  • 上海灵信视觉A4控制板

    资料准备 xff1a 1 LED Player上位机控制 xff1a em span style font size 12px http www 168led com AjaxFile DownLoadFileNew aspx FilePa
  • stm32串口一直进USART1_IRQHandler

    今天在使用USART模块 xff0c 遇到了一些问题并解决了 xff0c 于是发贴共享 问题描述 xff1a 在使用USART做串口通讯时 xff0c 我只把接收中断打开 xff0c 并设置抢占优先级为最低一个级别 xff0c 而接收中断上
  • tensorflow载入报错Process finished with exit code -1073741819 (0xC0000005)

    这几天准备在现有的软件里加上caffe来测试一种新算法 发现windows下python3 6安装caffe是真的难 xff0c 只能装好python2 7的版本就放弃了 回来继续完善软件 xff0c 又发现软件里的tensorflow不能
  • python项目打包(自定义dll) anaconda3+pyinstaller

    目前手上有一个python 43 pyqt的项目需要打包 xff0c 所以查了一下打包的方法 下面介绍一下具体步骤 xff1a python打包有很多方法 xff0c py2exe xff0c pyinstaller等等 xff08 其实我
  • Docker(六)同一镜像有多个Tag情况下,执行 docker rmi 镜像ID 指令无法删除

    删除方法一 docker rmi f 镜像ID 删除方法二 docker rmi repository tag 参考 xff1a 1 https www imooc com article 35040
  • 《ROS机器人开发实践(胡春旭)》第十章MoveIt!机械臂控制 学习笔记

    r 在学习 ROS机器人开发实践 胡春旭 第10章的MoveIt xff01 时 xff0c 因为在自己创建的工作空间中没有下载作者的源代码 xff0c 所有有以下几个问题 xff1a 1 使用moveit setup assistant时
  • Android 根据网络分析运营商信息

    我们想获取手机的运营商信息 通常都会去调用系统的TelephonyManager类的取数据 但是很多时候可能取不到卡的信息 xff08 例如双卡手机和一些特殊卡 xff09 xff0c 这样就区别不了运营商了 但是有时候我们的需求要进行不通
  • 简单又好看的按钮,扁平化按钮。

    今天分享一下流行的扁平化按钮 完全不需要用到图片哦 效果图如下 xff1a 里面有2个按钮都是一样的模式 只要修改的色值就可以 下面跟我来更新你的UI吧 首先编写 button xml 代码如下 lt xml version 61 34 1

随机推荐

  • Android 获取运营商信息(完整版)-解决高通,MTK等双卡问题

    由于国内的运营商问题 xff0c 双卡手机获取IMSI号问题要根据厂商API 来实现 下面我们就来做一套完整的分析运营商获取IMSI号逻辑 1 xff0c 首先我们要判断手机的平台 1 1 xff0c 判断手机是否MTK平台 public
  • AstarPathfindingProject 中RVO碰撞体扩展

    原本库中只有矩形RVO碰撞体 xff0c 如果要添加自己的需要继承RVOObstacle抽象类 xff0c 重写里面的方法 例如下面的圆柱形碰撞 using UnityEngine if UNITY EDITOR using UnityEd
  • Android中抓取手机视频流数据。

    目前实时抓取手机视频数据有2种方法 xff0c 一种是通过camera的回调获取源数据 xff0c 这里获取的源数据是没有编码的数据 有的人发送yuv数据然后在那绘制图片 xff0c 也说视频聊天 xff0c 真是可笑 这种方式是可是实现视
  • Android 使用AudioRecord录音相关和音频文件的封装

    在Android中录音可以用MediaRecord录音 xff0c 操作比较简单 但是不够专业 xff0c 就是不能对音频进行处理 如果要进行音频的实时的处理或者音频的一些封装 就可以用AudioRecord来进行录音了 这里给出一段代码
  • Android 中使用MediaRecorder进行录像详解(视频录制)

    在这里给出自己的一个测试DEMO xff0c 里面注释很详细 简单的视频录制功能 package com video import java io IOException import android app Activity import
  • Android手机中获取手机号码和运营商信息

    代码如下 xff1a package com pei activity import android app Activity import android os Bundle import android view View import
  • C语言下划线开头的函数

    首先 xff0c C 43 43 里关于下划线的问题是源于C语言 xff0c 因为C 43 43 允许用extern C 来修饰代码以C语言语法方式编译 然后说C语言里的下划线 xff1a C语言确实允许以下划线开头的函数存在 xff0c
  • 校验和计算方法

    1 说明 xff1a 1 校验和覆盖的内容 xff1a IP校验和 xff1a IP首部 ICMP校验和 xff1a ICMP首部 43 ICMP数据 xff1b UDP TCP校验和 xff1a 首部 43 数据 43 12个字节伪首部
  • 布谷鸟算法浅谈与简单应用

    简介 布谷鸟算法是由剑桥大学Xin She Yang教授和S Deb于2009年提出的一种新兴的启发算法 xff0c 是一种通过模拟自然界当中布谷鸟 xff08 也就是杜鹃 xff0c 故该算法也称为杜鹃算法 xff09 在繁育后代的行为而
  • torchvision中inception v3的实现

    一 torchvision中inception v3的网络结构 论文中给的结构如下图所示 但是torchvision中的inception v3结构中并不是这么实现的 下面解释一下torchvision中的inception v3结构 xf
  • 实践 基于Arduino 的 平衡车

    完成样子 因为只是学习验证 xff0c 没用电烙铁 xff0c 只用了面包板来连接各个组件 xff0c 中间用扎带固定 xff08 不稳定 xff09 完成后能基本保持平衡 xff0c 但太大力去推容易倒 平衡原理 通过负反馈实现平衡 xf
  • CMake入门-04-自定义编译选项

    工作环境 系统 xff1a macOS Mojave 10 14 6CMake Version 3 15 0 rc4 Hello World 自定义编译选项 CMake 允许为项目增加编译选项 xff0c 从而可以根据用户的环境和需求选择最
  • Linux 驱动开发简单实例

    Xiuye XY于 2021 08 03 19 17 07 发布343 收藏 3 分类专栏 xff1a 笔记 C C 43 43 Linux 版权 编辑笔记同时被 3 个专栏收录正在上传 重新上传取消 128 篇文章0 订阅 订阅专栏 编辑
  • ros下编译安装package

    原文地址 配置Release目录 catkin config install修改CMakeList txt文件 修改节点中CMakeLists txt文件 假设此处我们的节点项目名称为 test node 即CMakeLists txt中p
  • 什么是解耦?

    什么是解耦 解耦就是用数学方法将两种运动分离开来处理问题 对项目划分为多个模块这种做法你有什么看法 xff1f 优势 劣势有哪些 xff1f 多模块化项目优势在于 xff1a 提高代码的重用率 xff0c 可维护性高 xff0c 架构灵活
  • HDFS-Tiering 数据分层存储

    1 背景 随着小米业务迅猛发展 xff0c 存储到 HDFS 集群的数据量不断增大 xff0c 存储成本也不断攀升 尤其是海外 HDFS 集群每 GB 数据的成本是国内集群的 10 倍左右 xff0c 如何优化海外集群的存储成本变得非常迫切
  • 米家插件平台的技术实践之路

    2016年小米正式发布米家品牌 xff0c 此后米家开始接入第三方的智能硬件产品 xff0c 小米的IoT生态也迎来了快速发展 截止到2020年Q3 xff0c 小米AIoT平台已连接的IoT设备 xff08 不包括智能手机及笔记本电脑 x
  • 拥抱开源 | Xiaomi Vela团队成果连连,喜讯不断

    Xiaomi Vela是基于开源实时操作系统NuttX打造的物联网操作系统 xff0c Vela可以在各种物联网硬件上提供统一的软件平台 xff0c 通过丰富的组件和标准化的软件框架 xff0c 打通碎片化的物联网应用场景 今年Xiaomi
  • 将开源进行到底!小米新一代Kaldi荣获2022数博会“领先科技成果”奖

    5月26日 xff0c 数博会开幕式当天揭晓了 2022中国国际大数据产业博览会数博发布之领先科技成果 奖 xff0c 小米公司 新一代Kaldi 项目 xff0c 凭借全自研的创新成果和突出的社会价值 xff0c 获得评委会一致认可 xf
  • 小米AI实验室4篇论文入选语音技术顶会INTERSPEECH 2022

    滴滴 重磅消息新鲜出炉 xff01 xff01 全球语音领域顶级会议 INTERSPEECH 2022公布了论文入选名单 xff0c 小米 AI 实验室4篇论文被接收 INTERSPEECH 是由国际语音通信协会ISCA组织的语音领域的顶级