端到端多语言识别 语言不变性瓶颈特征

2023-05-16

中科院

LANGUAGE-INVARIANT BOTTLENECK FEATURES FROM ADVERSARIAL END-TO-END ACOUSTIC MODELS FOR LOW RESOURCE SPEECH RECOGNITION
针对低资源语音识别的端到端对抗性声学模型的语言不变瓶颈特性

 

本文提出了一种针对低资源语言的端到端对抗性声学模型,以学习语言不变的瓶颈特性。该多语言端到端模型采用连接主义时间分类损失函数进行训练。模型有共享层和私有层。共享层是用于学习所有语言的通用特性的隐藏层。私有层是依赖于语言的层,用于捕获特定于语言的特性。基于注意的对抗性端到端语言识别用于获取足够的语言信息。此外,正交性约束用于使私有和共享特性不同。对IARPA Babel数据集进行了实验研究。结果表明,与传统的多语言瓶颈特征训练的目标模型相比,采用该瓶颈特征训练的目标模型相对错误率降低了9.7%

Introduction

       为了提高低资源语音识别任务的性能,人们做了大量的工作。瓶颈特征有助于训练目标语言的声学模型[1,2,3,4]。以前,基于深度神经网络(DNN)的瓶颈模型被用来生成多语言的瓶颈特征[5,6,7]。最近,Hartmann等人利用双向长短时记忆网络(BLSTM)和深度卷积神经网络来提取单语瓶颈特征。

       以往的研究[9,10,11]表明,使用瓶颈特征训练的声学模型优于仅使用目标语言训练的模型,尤其是在训练数据有限的情况下。然而,瓶颈特性可能包含一些不必要的语言特定信息。Yi等人提出通过语言对抗性迁移学习来转移目标语言的共享参数。Yi等人还提出使用对抗性多语言训练来提取低资源语言的通用瓶颈特征。结果表明,该方法是有效的。然而,这种方法仍然有一些局限性。首先,[13]中的语言对抗模型是用交叉熵损失函数训练的,但目前尚不清楚用连接主义时间分类(CTC)[14]损失函数训练的模型是否有效。其次,多个帧的输入特性不包含太多的语言信息。最后,共享和私有特性可能有一些相似之处。

       为了解决上述问题,本文提出了从一个对立的端到端模型中学习语言不变的瓶颈特性。许多研究[15,16]表明,基于CTC的端到端声学模型取得了很好的结果。因此,利用具有CTC损失函数(BLSTM-CTC)的BLSTM模型来训练对抗性瓶颈模型。此外,受端到端语言识别任务[17]成功的启发,本文提出了一种对抗端到端语言识别方法,以获取足够的语言信息。此外,受最近领域适应工作[18]的启发,本文利用差异损失来鼓励共享和私有提取器对输入的不同方面进行编码。差分损耗由正交约束[18]实现。因此,端到端瓶颈模型可以学习与语言无关的特性。

       本文的其余部分组织如下。第2节介绍了端到端对抗瓶颈声学模型。第三部分给出了实验结果。本文的结论在第四部分

 

2. 对抗性端到端瓶颈声学模型

       基于BLSTM-CTC的端到端瓶颈声学模型,该模型附加了一个带有梯度反转层(GRL)的端到端语言鉴别器[19,20]。模型结构如图1所示。瓶颈模型具有私有和共享的隐藏层。共享层是用于学习所有语言的通用特性的隐藏层。私有层是依赖于语言的层,用于捕获特定于语言的特性。私有层由两个BLSTM层组成。共享层由三个BLSTM层组成,中间层为瓶颈层(BN)。该语言鉴别器具有完全连通(FC)隐藏层和注意层。注意机制[17]用于将话语特征转化为固定大小的实值向量。GRL没有参数,引入这些参数是为了确保所有语言上的特征分布对于语言识别器来说是尽可能不可分辨的。此外,正交性约束用于使私有表示和共享表示不同。因此,共享层可以学习更多的语言不变特性。

 2.1。连接时间分类(CTC)

      损失函数用于为给定的输入序列[14]选择最可能的标签序列。设x为输入序列,z为标签字母表上的输出序列。一般情况下,S中的每个训练样本定义为一对序列(x;最大似然训练的目的是使下列目标函数最小化

 

 

4  结论

       本文提出了一种针对低资源语言的端到端对抗性声学模型,以学习语言不变的瓶颈特性。采用CTC损失函数对端到端模型进行训练。为了获取更多的语言信息,提出了基于注意的对抗性端到端语言识别方法。正交性约束用于使私有和共享特性不同。对IARPA Babel数据集进行了实验研究。结果表明,使用该瓶颈特征训练的目标模型比使用传统多语言瓶颈特征训练的目标模型相对降低了9.7%。未来的工作包括使用更多的源语言学习独立于语言的特性,并探索源语言和目标语言之间的相似性。

 

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

端到端多语言识别 语言不变性瓶颈特征 的相关文章

  • 安装docker,vulhub

    1 sudo apt install apt transport https ca certificates curl gnupg agent software properties common 2 curl fsSL https dow
  • 5GC移动性管理(5GS mobility management ,5GMM)

    主要内容 介绍5GC中移动性管理功能的实现 注册管理状态模型连接管理状态模型UE Context的构成用户标识符 xff08 SUPI SUCI PEI等 xff09 移动性管理限制及术语 xff08 注册区 禁止区域 服务受限区域 xff
  • 云计算实战系列三(Linux文件管理)

    文件管理 1 Linux目录结构 1 1 WINDOWS LINUX 对比 Windows 以多根的方式组织文件 C D E Linux 以单根的方式组织文件 1 2 简介 目录结构 xff1a FSH Filesystem Hierarc
  • hashCode()和equals()的区别

    一 hashCode 和equals 是什么 xff1f hashCode 方法和equals 方法的作用其实一样 xff0c 在Java里都是用来对比两个对象是否相等一致 二 hashCode 和equals 的区别 下边从两个角度介绍了
  • debian下smplayer播放视频无声音的问题

    请先安装解码器和smplayer 解码器essential 20071007 tar bz2一般都是手动安装 xff0c smplayer使用apt get install即可 安装过程 xff0c 参考mplayer官网步骤 xff1a
  • iOS可视化界面编程XIB简单使用

    iOS的UI界面的编写现在基本分为三个流派 手写代码XIBStoryBoard 三者区别 本文主要介绍XIB的简单使用 xff0c 基于XIB在界面上放几个按钮并生成点击事件代码 以下代码及截图基于XCode12 快速创建 1 创建文本对象
  • 方面情感分析的四个情感元素介绍

    方面情感分析介绍 一般情感分析的问题由两个部分组成 xff1a 目标和情绪 目标可以是实体也可以是实体的某一个属性 xff0c 方面 xff0c 特点等等 xff0c 情绪是表达对目标的感情 xff0c 这里一般是积极 xff0c 消极 x
  • go中使用sqlite

    1 安装mingw64 1 1 下载mingw sqlite作为一个快速开发的数据库 xff0c 理应被go支持 xff0c 但是要在go里面使用sqlite xff0c 实际上是要下载sqlite的源代码编译的 xff0c 当然 xff0
  • map 详解(C++)

    现实中的数据很多是关联的 xff0c 例如书本名称和价格 xff0c 每条数据都含有两部分 xff1a 信息学竞赛一本通 xff1a 80 高等数学 xff1a 27 5 生物信息分析 xff1a 35 5 我们可以使用map存储这类一对一
  • 详解Ubuntu文件的结构

    首先我们知道 xff0c linux系统文件结构和windows系统文件结构不同之处在于 xff0c linux系统文件统一挂载在根目录下的 xff0c 而windows系统的文件是分磁盘挂载的 windows下通常分C盘D盘E盘等 xff
  • Go 语言 exec 实时获取外部命令的执行输出

    Go 语言 exec 实时获取外部命令的执行输出 在 Go 语言中调用外部 Linux 命令可以通过标准的 os exec 包实现 xff0c 我们一般的使用方式如下 xff1a span class token keyword packa
  • ubuntu 18.04 arm64版 安装docker 踩坑

    一 安装ubuntu 18 04系统 可以参考该系列其他文章 二 安装docker 1 先卸载可能存在的旧版本 apt remove docker docker span class token operator span engine d
  • Linux网络中的桥 (Bridge)

    桥简介 桥 xff0c 从字面来讲就是在一条河流上面建造一条路 xff0c 对 xff0c 就是这样 xff0c 甭管是多大多长跨江还是跨海 xff0c 它都是起到连接两岸的作用 在计算机的网络世界中也存在这种连接的两个网络的设备 xff0
  • MySQL8.0 开启远程连接

    一 MySQL 开启远程连接需要先在服务器上登录到 MySQL mysql u root p 1 然后 Enter password 二 修改 root 账户的 Host 1 打开 mysql 数据库 use mysql 1 2 查看 us
  • 实时天气API

    restful接口查询天气 实时天气 API 和风天气开发平台 实时天气 全国4000 个市县区和海外15万个城市实时天气数据 包括实时温度 体感温度 风力风向 相对湿度 大气压强 降水量 能见度 露点温度 云量等数据 请求URL nbsp
  • C程序的内存结构

    以类Unix环境下的程序运行为例 xff0c 说明C程序的运行过程和内存分配 xff0c windows环境下原理一致 xff0c 但实现细节会有区别 xff0c 所以首先我们要明白 xff1a 程序的内存布局 Program Memory
  • AD采用多层原理图和ROOM方式高效率绘制重复性功能电路板图

    我们在使用altium designer绘制原理图和PCB时 xff0c 往往会遇到多路重复性的电路 xff0c 其功能和走线完全一致 xff0c 在条件允许的情况下我们可以采用多层原理图和ROOM方法避免重复性劳动 本文以两路RS485电
  • Ubuntu网络频繁掉线解决方案

    转自 xff1a http www cnblogs com ljxxz p 5089863 html 年底了 xff0c 实验室终于给配了个电脑 xff08 Ubuntu系统 xff09 xff0c 博主欣喜若狂啊 xff0c 然而装好后发
  • 部分Windows 10企业版用户无法使用微软Edge浏览器

    图片来自 xff1a neowin 很多关于Windows 10的问题悬而未决 xff0c 在微软正式推出Windows 10之前还有一个多月的时间 xff0c 很多事情都会发生改变 就在本周 xff0c 来自Gartner Inc的分析师
  • 无法远程连接如何排错

    无法远程连接如何排错 去北京天安门广场 连接服务器 服务器位置 10 0 0 200 1 连接不上服务器 测试我和天安门广场之间的道路是否通畅 百度地图 连接不上10 0 0 200 测试和200通信是否正常 ping 10 0 0 200

随机推荐

  • 51单片机实时时钟显示

    51单片机 43 DS1302 43 DS18B20 43 LCD12864 用的IIC通信 xff0c 写的一个ds3231时钟模块的程序 xff0c 可更改时间 xff0c 下面是 h文件里面的部分代码 ifndef ds3231 h
  • RouterOS(ROS)软路由阿里云动态域名解析Aliyun DDNS

    本文讲解ROS借助阿里云的 DNS API 来实现域名与动态 IP 的绑定 xff0c 用来达到外网访问内网设备的需求 一 给域名添加A记录解析 1 点击登录阿里云域名控制台 2 给域名添加一个A记录解析 xff0c 记录值可以随意填写 x
  • <X>远程登录服务

    文章目录 一 ssh1 ssh服务的用途2 基本用法3 ssh 服务的 key 认证 二 文件传输1 实验环境2 scp 命令3 rsync命令 三 文件的归档与压缩1 文件归档2 文件的压缩3 tar 43 压缩 四 日志1 journa
  • springboot项目正常启动后却无法访问

    报错内容 xff1a Resolved org springframework http converter HttpMessageNotReadableException Required request body is missing
  • 如何解决远程桌面登录后闪退

    在cmd中输入这个命令 xff0c 可以防止登录远程桌面后闪退 mstsc admin
  • ubuntu22.0.4 kolla多节点搭建openstack ,skyline

    kolla部署openstack 基础 更新软件包索引 span class token function sudo span span class token function apt span update 2 安装 Python 构建
  • 论文阅读 | Video Super-Resolution Transformer

    引言 xff1a 2021年用Transformer实现视频超分VSR的文章 xff0c 改进了SA并在FFN中加入了光流引导 论文 xff1a here 代码 xff1a here Video Super Resolution Trans
  • PostgreSQL12 windows zhparser插件安装

    zhparser https github com amutu zhparser 1 scws编译 因为zhparser需要使用scws进行中文分词先编译scws xff0c zhparser的README有scws源码的下载地址 http
  • WM_COMMAND消息

    当用户点击菜单 按钮 下拉列表框等控件时候 xff0c 会触发WM COMMAND LOWORD wParam 是控件或菜单或加速键的ID xff0c 菜单的sparator的ID为0 如果LOWORD wParam 是控件ID xff0c
  • windows简单调试器源码2700行左右代码

    简单调试器项目中on开头的函数为接收系统的调试事件并做相应的处理 xff0c 简单调试器实现过程中主要的调试事件为异常事件 xff0c 相应的处理函数为DispatchException 在异常事件中访问异常 int3异常 单步异常是跟实现
  • C语言头文件的作用

    C语言中的 h文件和我认识由来已久 xff0c 其使用方法虽不十分复杂 xff0c 但我却是经过了几个月的 不懂 时期 xff0c 几年的 一知半解 时期才逐渐认识清楚他的本 来面目 揪其原因 xff0c 我的驽钝和好学而不求甚解固然是原因
  • linux ip命令

    ip 是个命令 xff0c ip 命令的功能很多 xff01 基本上它整合了 ifconfig 与 route 这两个命令 xff0c 不过ip 的功能更强大 xff01 如果您有兴趣的话 xff0c 请自行 vi sbin ifup 就知
  • 推荐一个好的数据库工具Embarcadero DBArtisan

    最近的项目中用到了DB2数据库 xff0c 由于DB2数据库客户端在操作操作和控制方面不是很方便 xff0c 如存储过程的编写 后来我们在数据库的操作都转在DBArtisan上了 xff0c 最新版好像是8 12 下面介绍一下使用这个工具的
  • CISCO ACL配置详解

    什么是ACL xff1f 访问控制列表简称为ACL xff0c 访问控制列表使用包过滤技术 xff0c 在路由器上读取第三层及第四层包头中的信息如源地址 xff0c 目的地址 xff0c 源端口 xff0c 目的端口等 xff0c 根据预先
  • linux下挂载lvm分区方法

    1 首先使用vgscan 扫描 lvm 结果如下 root 64 localhost vgscan Reading all physical volumes This may take a while WARNING Duplicate V
  • ubuntu20.04xrdp远程桌面sh脚本

    Script Name xrdp installer 1 2 sh Description Perform xRDP installation on Ubuntu 16 04 18 04 19 04 19 10 and perform ad
  • H264视频编码原理

    一 为什么要对视频编码 视频是由一帧帧的图像组成 xff0c 就像gif图片一样 一般视频为了不会让人感觉到卡顿 xff0c 一秒钟至少需要16帧画面 一般30帧 加入该视频是一个1280x720的分辨率 xff0c 那么不经过编码一秒钟传
  • 从contiki中下载程序到TelosB节点

    编译下载步骤 step 1 编写好程序文件 xff0c 到程序文件所在目录 以hello world文件为例 cd 43 文件目录 step 2 xff1a 编译程序文件 make TARGET 61 sky hello world ste
  • Linux xrdp 问题(解决远程访问失败问题)

    开发中偶发机器无法远程登录服务器 xff0c 本地启用mstsc连接失败 xff0c 解决方法如下 xff1a 基本命令如下 xff1a 502 mount o remount rw 503 mount 504 systemctl star
  • 端到端多语言识别 语言不变性瓶颈特征

    中科院 LANGUAGE INVARIANT BOTTLENECK FEATURES FROM ADVERSARIAL END TO END ACOUSTIC MODELS FOR LOW RESOURCE SPEECH RECOGNITI