CTC:空格和空白有什么区别?

2024-03-02

2006年article https://www.cs.toronto.edu/~graves/icml_2006.pdf关于联结主义时间分类,Alex Graves & co.引入了一种解码语音的模型27标签:26 个用于字母表字母,1 个用于blank,意味着没有标签(我理解是silence).

然而,我看到很多 CTC 的实现都使用28标签,其中之一是blank另一个是space。到目前为止,我还无法找到需要使用这两个标签的解释,对我来说,它们代表同一件事。

您能否解释一下 CTC 背景下空白和空格之间的区别以及为什么需要这两个标签?


在联结主义时间分类中space只是一个 空格和空白是'-',我们用它来解决重复 数据的重复出现。例如“pizza”将被编码为 “比萨”。

TLDR;

ref: https://towardsdatascience.com/beam-search-decoding-in-ctc-trained-neural-networks-5a889a3d85a7 https://towardsdatascience.com/beam-search-decoding-in-ctc-trained-neural-networks-5a889a3d85a7

在CTC中存在一个如何对重复字符进行编码的问题。它是通过引入伪字符(称为空白,但不要将其与“真正的”空白,即空白字符)混淆来解决的。这个特殊字符在文本中将被表示为“-”。我们使用巧妙的编码模式来解决重复字符问题:在对文本进行编码时,我们可以在任意位置插入任意多个空格,而在解码时这些空格将被删除。但是,我们必须在重复字符之间插入空格,如“hello”。此外,我们可以根据需要多次重复每个字符。 让我们看一些例子: “到”→“---ttttttooo”,或“-t-o-”,或“到” “too”→“---ttttto-o”,或“-t-o-o-”,或“to-o”,但不是“too” 如您所见,此模式还允许我们轻松创建同一文本的不同对齐方式,例如“t-o”、“too”和“-to”都表示相同的文本(“to”),但与图像的对齐方式不同。神经网络经过训练以输出编码文本(在神经网络输出矩阵中编码)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CTC:空格和空白有什么区别? 的相关文章

  • Android 上的关键字激活语音识别

    是否可以在您自己的应用程序中使用 google now 这个很酷的语音激活功能 所以我想要的是用户不必通过按下按钮或其他东西来触发激活 像那样 我宁愿有一个由关键字激活的自动语音识别功能 例如 当 google now 打开时 您只需说 g
  • 如何使用curl 访问IBM 语音转文本API?

    我无法使用curl 访问IBM Bluemix 上的语音转文本API 我尝试了文档中使用curl进行无会话请求的示例 但它不起作用 我收到无效的用户 ID 密码消息 这是我得到的错误 代码 401 错误 未授权 描述 2016 10 08T
  • Twilio IBM Watson Speech To Text Addon 回调功能未触发

    我的目标是使用 Twilio 平台上提供的 IBM Watson Speech to Text Addon Twilio 附加功能 进行转录 呼叫者的输入 IVR 对话 IBM Watson 语音转文本插件已安装 Problem 回调 UR
  • 无需 Google 对话框的语音识别

    我将尝试使用带有 RecognitionListener 的语音识别 无需 Google 对话框 但不起作用 启动应用程序时只会发出蜂鸣声 我已将音频记录和互联网权限添加到清单文件中 我希望你告诉我并帮助我找到错误 我在 Log cat 上
  • 如何使用 Python 中的 Bing Speech API 转录语音文件?

    如何使用 Python 中的 Bing Speech API 转录语音文件 我的语音文件超过 15 秒 我知道人们可以在 Python 中使用 Bing Speech REST API https gist github com jelli
  • 用于语音检测和辨别的开源代码

    我有 15 盘录音带 我相信其中一盘包含我祖母和我谈话的旧录音 快速尝试找到合适的地方并没有找到 我不想听20个小时的磁带才能找到它 该位置可能不在其中一盘磁带的开头 大多数内容似乎分为三类 按照总长度的顺序 最长的在前 沉默 语音广播和音
  • 使用 Flash 或 Silverlight 进行语音识别

    我正在开发一个网络用户界面来输入一些不是很复杂但需要实时加载的信息 我认为该应用程序可以利用语音识别来促进任务 该界面的核心是使用 Javascript 和 jQuery 构建的 但可以轻松包含 flash 或 silverlight 组件
  • 语音转文本 在 apk 中包含语音引擎

    我的应用程序中需要为真正的非极客提供语音转文本功能 有没有办法在编译时为各种平板电脑包含语音引擎 您可以包含自己的引擎 例如 CMU Sphinx 引擎 这还具有无需数据连接即可工作的优点 看到这个post http cmusphinx s
  • C/C++ 中的梅尔频率倒谱系数 (MFCC)

    C C 中是否有 MFCC 的实现 有源代码或库吗 我已经找到了http code google com p libmfcc http code google com p libmfcc 这看起来不错 2016年回顾 libmfcc很简单
  • USB 麦克风无法与 Windows IOT Core 配合使用

    我尝试了 2015 年 11 月版本 版本 10586 和 2016 年 2 月 Insider Preview 版本 版本 14262 但是我的USB 麦克风无法与 Windows 10 IOT 核心配合使用 设想 我正在使用 Windo
  • 如何将人声转换为数字格式?

    我正在开展一个使用生物识别系统来保护系统的项目 我们计划使用人声来保护系统 想法是让人们说出一些单词或句子 系统将以数字格式存储该语音 下次人们想要进入系统时 他 她必须说出一些单词 这些单词可能与之前使用的单词不同 也可能没有不同 我们不
  • 如何跟踪语速

    我正在开发一个跟踪语速的 iPhone 应用程序 并希望使用 Nuance Speechkit https developer nuance com public Help DragonMobileSDKReference iOS Spee
  • 如何在Python中使用谷歌语音识别API? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个 mp3 文件 我想使用 Google 的语音识别功能从该文件中获取文本 任何我可以找到文档或
  • 如何隐藏 toast 消息“您的音频将发送到谷歌以提供语音识别服务。”在安卓中?

    我正在使用谷歌语音识别器在 Android 中集成语音服务 但是当按下麦克风按钮时 会显示这条烦人的 toast 消息 请建议我一种隐藏此 toast 消息的方法 这是我的java代码 public class FormActivity e
  • 来自直播流的语音到文本[关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个 Java 应用程序 我想要转录的不是一个文件 而是一个由 Wowza 提供的实时流 rtmp
  • 浏览器上的连续语音识别,例如“ok google”或“hey siri”

    我正在做一个 POC 我的要求是我想实现这样的功能OK google or Hey Siri在浏览器上 我正在使用 Chrome 浏览器Web speech api 我注意到我无法继续识别 因为它会在一段时间后自动终止 而且我知道出于安全考
  • TypeScript 中的语音识别和语音合成

    我能够通过创建如下接口在 TypeScript 中运行 SpeechRecognition 并且工作正常 namespace CORE export interface IWindow extends Window webkitSpeech
  • 语音识别和语调检测

    我想做一个 iOS 应用来计算疑问句 我会寻找 WH 问题以及 我会吗 格式化问题 我对语音或音频技术领域不太了解 但我Google了一下 发现语音识别SDK很少 但仍然不知道如何检测和绘制语调 是否有支持语调或情感语音识别的 SDK 据我
  • 如何使用其他语言的语音识别 android

    我有一个曾经有效的代码 但由于某种原因它突然停止工作 我正在尝试使用希伯来语语音识别 但似乎从几天前开始它才开始英语语音识别 这是我的代码 sr SpeechRecognizer createSpeechRecognizer getAppl
  • 解析 LIUM 扬声器二值化输出

    我如何使用 LIUM 演讲者分类工具包知道哪个演讲者发言了多长时间 例如 这是我的 seg 文件 cluster S0 score FS 33 93166562542459 score FT 34 24966646974656 score

随机推荐