简单的语音识别方法

2023-11-22

是的,我知道语音识别相当复杂(轻描淡写)。我正在寻找的是一种区分的方法maybe20-30 个短语。分割单词的能力(离散语音很好)会很好,但不是必需的。该软件将取决于用户(即供我使用)。我不是在寻找现有的软件,而是在寻找一种自己做这件事的好方法。我研究了各种现有的方法,似乎将声音分成音素虽然很常见,但对于我的需求来说有点过度。

对于某些情况,我只是在寻找一种通过一些简单的语音命令来控制计算机某些方面的方法。我知道 Windows 已经有语音识别软件,但我想自己尝试一下这个软件作为学习练习。命令很简单,例如“打开 Google”或“静音”。我的想法(不确定这是否是个好主意)是某些命令是复合的。所以“静音”就只是“静音”。而“打开”命令可以单独识别,然后有其后缀(Google、Photoshop 等)。被另一个网络/模型/其他东西识别。但我不确定以这种方式查找前缀/断词是否会比处理数量增加的单个命令产生更好的结果。

我一直在研究感知器、hopfield 网络(尽管根据我的理解,它们有些过时)和 HMM,虽然我理解这些背后的想法(我之前已经实现了 ANN),但我真的不知道哪个是最适合这项任务。我假设线性矢量量化模型也是合适的,但我实际上找不到太多这方面的文献。任何指导/资源将不胜感激。


语音识别方面有一些开源项目:

  1. HTK(隐马尔可夫模型工具包)
  2. Sphinx

两者都有解码器、训练、语言模型工具包。构建一个完整且强大的语音识别器的一切。 Voxforge 拥有适用于两个开源语音识别工具包的声学和语言模型。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

简单的语音识别方法 的相关文章

  • 增加或减少添加神经元或权重的学习率?

    我有一个卷积神经网络 我修改了它的架构 我没有时间重新训练和执行交叉验证 对最佳参数进行网格搜索 我想要直观地调整学习率 我是不是该increase or decrease我的 RMS 基于 SGD 优化器的学习率 如果 I add mor
  • 简单的神经网络无法学习异或

    我正在尝试学习神经网络 并编写了一个简单的反向传播神经网络 该网络使用 sigmoid 激活函数 随机权重初始化和学习 梯度动量 当配置 2 个输入 2 个隐藏节点和 1 个时 它无法学习 XOR 和 AND 然而 它会正确地学习 OR 我
  • 为什么我在此语音识别代码中缺少 an4-1-1.match 文件?

    我在语音识别的解码部分遇到问题 我按照步骤操作here http www speech cs cmu edu sphinx tutorial html 当我输入 perl scripts pl decode slave pl 我收到这些错误
  • Keras:使用 flow_from _directory() 函数为两个输入模型创建自定义生成器

    我试图用以下方法训练我的暹罗网络fit generator 我从这个答案中了解到 Keras 如何将 fit generator 与多个输入一起使用 https stackoverflow com questions 49404993 ke
  • Tensorflow 中的平衡准确度分数

    我正在为高度不平衡的分类问题实现 CNN 并且我想在张量流中实现自定义指标以使用 选择最佳模型 回调 具体来说 我想实现平衡的准确度分数 这是每个类别的召回率的平均值 请参阅 sklearn 实现here https scikit lear
  • Matlab - 神经网络训练

    我正在努力创建一个具有反向传播的 2 层神经网络 神经网络应该从 20001x17 向量获取数据 该向量在每行中包含以下信息 前 16 个单元格包含从 0 到 15 的整数 它们充当变量 帮助我们确定在看到这些变量时要表达的 26 个字母中
  • Keras:模型准确率在达到 99% 准确率后下降,损失为 0.01

    我正在 keras 中使用改编的 LeNet 模型来进行二元分类 我有大约 250 000 个训练样本 比率为 60 40 我的模型训练得很好 第一个 epoch 的准确率达到 97 损失为 0 07 10 个 epoch 后 准确率超过
  • 随着新数据的出现,如何增量训练 FANN?

    我使用 FANN 库构建并训练了一个神经网络 这是初步培训 大部分数据将在线收集 当在线数据可用时我想要improve使用这些新数据的网络 不是重新训练 而是使之前的训练更加准确 如何用FANN来做这种增量训练呢 从更改为的文件进行训练 s
  • 如何从 JavaScript 使用 Opus 编解码器

    我想看看是否可以使用直接访问 OpusgetUserMedia或最新浏览器中的任何类似内容 我对此进行了很多研究 但没有取得好的结果 我知道 Opus 或 Speex 实际上用于webkitSpeechRecognitionAPI 我想做语
  • 如何使用其他语言的语音识别 android

    我有一个曾经有效的代码 但由于某种原因它突然停止工作 我正在尝试使用希伯来语语音识别 但似乎从几天前开始它才开始英语语音识别 这是我的代码 sr SpeechRecognizer createSpeechRecognizer getAppl
  • Keras模型拟合多项式

    我从四次多项式生成了一些数据 并希望在 Keras 中创建一个回归模型来拟合该多项式 问题是拟合后的预测似乎基本上是线性的 由于这是我第一次使用神经网络 我认为我犯了一个非常微不足道且愚蠢的错误 这是我的代码 model Sequentia
  • 实例标准化与批量标准化

    据我所知 批量归一化通过将激活转向单位高斯分布来帮助加快训练速度 从而解决梯度消失问题 批量归一化行为在训练 使用每个批次的平均值 var 和测试时间 使用训练阶段的最终运行平均值 var 时应用不同 另一方面 实例归一化充当本文提到的对比
  • 神经网络的局部逆

    我有一个带有 N 个输入节点和 N 个输出节点的神经网络 可能还有多个隐藏层和循环 但让我们先忘记这些 神经网络的目标是学习一个N维变量Y 给定N维值X 假设神经网络的输出是Y 学习后应该接近Y 我的问题是 是否有可能得到输出 Y 的神经网
  • 将数值和分类数据混合到具有密集层的 keras 序列模型中

    我在 Pandas 数据框中有一个训练集 我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
  • 帮助我在 Python 中实现反向传播

    EDIT2 新的训练集 Inputs 0 0 0 0 0 0 1 0 0 0 2 0 0 0 3 0 0 0 4 0 1 0 0 0 1 0 1 0 1 0 2 0 1 0 3 0 1 0 4 0 2 0 0 0 2 0 1 0 2 0 2
  • NLTK 中的无监督 HMM 训练

    我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
  • 如何在iOS SDK中使用语音识别? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我知道 SIRI 服务没有公共 API 但是有没有简单的语音识别 API 因此 如果我有一个文本字段并且
  • 为神经网络打乱两个 numpy 数组

    我有两个 numpy 数组用于输入数据 X 和输出数据 y X np array 2 3 sample 1 x 16 4 dtype float sample 2 x y np array 1 0 sample 1 y 0 1 dtype
  • 多个对象以某种方式相互干扰[原始版本]

    我有一个神经网络 NN 当应用于单个数据集时 它可以完美地工作 但是 如果我想在一组数据上运行神经网络 然后创建一个新的神经网络实例以在不同的数据集 甚至再次同一组数据 上运行 那么新实例将产生完全错误的预测 例如 对 XOR 模式进行训练
  • 在keras自定义损失中使用层输出

    我正在 Keras 中开发自定义损失函数 我需要第一层输出 我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax

随机推荐

  • 模式视图关闭时不调用 ViewDidAppear

    首先 我创建一个 MainViewController 然后在 MainViewController 中 我这样做 self presentViewController modalViewController animated YES co
  • 为什么窗口或文档不能设置为 undefined 或 null?

    这可能是一个愚蠢的问题 但我还没有找到答案 为什么我们不能做到以下几点 window undefined OR document undefined 我知道这些是全局变量并且可以在浏览器中使用 但是想想 JavaScript 是如何工作的
  • EJB @Asynchronous 检索 JSF 中实时插入的行似乎是线程锁定的

    我正在努力实现以下目标 EJB3单例 Singleton Startup public class SomeSingleton implements SomeSingletonLocal Entity Manager injection p
  • 如何在Java中隐藏JFrame窗口上默认的最小化/最大化和关闭按钮?

    我想知道是否可以创建一个JFrame窗口没有默认的最大化 最小化 和关闭 x 按钮 我在每个框架上添加了自定义按钮 这样用户就不必弄乱窗口右上角的默认按钮 您可以使用JWindow因为默认情况下是 un decorated 但是你可以set
  • 如何防止可调整大小和可拖动元素相互折叠?

    大家好 我有以下代码 http jsfiddle net g7Cgg 正如您所看到的 有 2 个简单的 DIV 相互堆叠在一起 每个 DIV 也都设置为可调整大小和可拖动 但是 请注意 当您尝试调整第一个元素的大小时 第二个元素会折叠到第一
  • 计算曼德尔布罗集合迭代时遇到问题

    所以我读了这篇文章 http www wikihow com Plot the Mandelbrot Set By Hand但我被困在第 7 步 我正在 javascript 画布中绘制集合 我所需要的基本上就是我猜测的C值 for var
  • 无法获取用户 IP 地址(代理/防火墙/负载均衡器)

    我之前使用下面的代码通过asp net获取客户端IP 但在我转移到VDS之后 这个函数开始只返回我的子网掩码 即178 18 198 1或178 18 198 2 谁能帮我解决这个问题吗 Private Function GetIPAddr
  • Spring:单元和集成测试

    我正在寻找使用 Spring 设置单元和集成测试的最佳实践 我通常使用 3 种测试 真正的 单元测试 无依赖项 测试作为 单元 测试运行 内存数据库 本地调用 模拟 对象 或作为集成测试 持久数据库 远程调用 测试仅作为集成测试运行 目前我
  • Flask-Login 显示 401,而不是重定向到登录视图

    使用 Flask Login 我想要求某些视图登录 当我尝试访问装饰有的视图时 login required 我收到 401 消息而不是登录页面 我该如何正确设置 from flask login import LoginManager l
  • jQuery 验证停止表单提交

    我正在使用 jQuery 验证表单 但是当验证表单时 它会重新加载或提交页面 我想停止该操作 我已经使用了 event preventDefault 但它不起作用 这是我的代码 step1form validate step1form on
  • Doctrine 不会在 Mysql 中保留具有布尔值和 PDO::ATTR_EMULATE_PREPARES = false 的实体

    我们正在使用 Symfony 来创建一些 Web 服务 我们使用 Doctrine ORM 来存储实体 使用 Doctrine DBAL 来检索数据 因为它非常轻 并且可以重用 ORM 实体管理器 连接 当使用 Doctrine DBAL
  • Django 模板中的数字 for 循环

    怎样写一个数字for在 Django 模板中循环 我的意思是像 for i 1 to n 我使用了一种简单的技术 非常适合没有特殊标签和附加上下文的小案例 有时这会派上用场 for i in 0123456789 make list for
  • 杀死一个正在运行的线程

    如果我们强行终止正在运行的线程会发生什么 我有一个线程RecordThread 它调用一些复杂且耗时的函数 在我使用的这些函数中试着抓块 分配和释放内存以及使用临界区变量等 like void RecordThread AddRecord
  • 使用 python 请求获取 eBay 访问令牌(交换身份验证令牌)

    我正在尝试使用本指南获取访问令牌 这是我的主文件 import requests from utils import make basic auth header conf code
  • Xamarin.Forms:Android 项目生成错误 - AppData\Local\Xamarin 文件夹内缺少文件

    我正在尝试 Xamarin Forms 我创建了一个名为 App2 的解决方案 Visual Studio 自动创建了以下项目 应用程序2 便携式 App2 Droid App2 iOS 当我尝试编译 Android 项目 App2 Dro
  • 标准 Android 菜单图标,例如刷新 [关闭]

    Closed 这个问题是无关 目前不接受答案 Android SDK 通过以下方式提供标准菜单图标android R drawable X 然而 一些标准图标 例如ic menu refresh 刷新图标 缺失android R 有没有办法
  • 在 XCode 6 中如何设置观察点而不停止执行?

    您可以按照以下步骤轻松在 XCode 中设置观察点 顺便说一句 如果有更简单的方法 我想知道 运行你的程序 在使用变量的代码中设置断点 到达断点时 右键单击变量并选择 Watch nameOfTheVariable 继续执行 唯一的问题是每
  • Backbone集合集合属性(针对url)

    我需要将 id 传递给集合以在 url 中使用 例如 user 1234 projects json 但我不知道如何执行此操作 一个示例会很棒 我的应用程序的结构方式是在启动时提取并呈现 用户 集合 然后我希望当用户单击时 将其 文档 从服
  • 在 PHP PDO postgres 中处理布尔输入?

    有没有更好的方法来处理布尔输入postgresPHP 中的 PDO 驱动程序 在 PHP PDO 中转换布尔值false到 和true到 1 这会导致某些语句中出现如下错误 00000 7 ERROR invalid input synta
  • 简单的语音识别方法

    是的 我知道语音识别相当复杂 轻描淡写 我正在寻找的是一种区分的方法maybe20 30 个短语 分割单词的能力 离散语音很好 会很好 但不是必需的 该软件将取决于用户 即供我使用 我不是在寻找现有的软件 而是在寻找一种自己做这件事的好方法