简单的语音识别方法

2023-11-22

是的，我知道语音识别相当复杂（轻描淡写）。我正在寻找的是一种区分的方法maybe20-30 个短语。分割单词的能力（离散语音很好）会很好，但不是必需的。该软件将取决于用户（即供我使用）。我不是在寻找现有的软件，而是在寻找一种自己做这件事的好方法。我研究了各种现有的方法，似乎将声音分成音素虽然很常见，但对于我的需求来说有点过度。

对于某些情况，我只是在寻找一种通过一些简单的语音命令来控制计算机某些方面的方法。我知道 Windows 已经有语音识别软件，但我想自己尝试一下这个软件作为学习练习。命令很简单，例如“打开 Google”或“静音”。我的想法（不确定这是否是个好主意）是某些命令是复合的。所以“静音”就只是“静音”。而“打开”命令可以单独识别，然后有其后缀（Google、Photoshop 等）。被另一个网络/模型/其他东西识别。但我不确定以这种方式查找前缀/断词是否会比处理数量增加的单个命令产生更好的结果。

我一直在研究感知器、hopfield 网络（尽管根据我的理解，它们有些过时）和 HMM，虽然我理解这些背后的想法（我之前已经实现了 ANN），但我真的不知道哪个是最适合这项任务。我假设线性矢量量化模型也是合适的，但我实际上找不到太多这方面的文献。任何指导/资源将不胜感激。

语音识别方面有一些开源项目：

HTK（隐马尔可夫模型工具包）
Sphinx

两者都有解码器、训练、语言模型工具包。构建一个完整且强大的语音识别器的一切。 Voxforge 拥有适用于两个开源语音识别工具包的声学和语言模型。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

简单的语音识别方法的相关文章

增加或减少添加神经元或权重的学习率？

我有一个卷积神经网络我修改了它的架构我没有时间重新训练和执行交叉验证对最佳参数进行网格搜索我想要直观地调整学习率我是不是该increase or decrease我的 RMS 基于 SGD 优化器的学习率如果 I add mor
简单的神经网络无法学习异或

我正在尝试学习神经网络并编写了一个简单的反向传播神经网络该网络使用 sigmoid 激活函数随机权重初始化和学习梯度动量当配置 2 个输入 2 个隐藏节点和 1 个时它无法学习 XOR 和 AND 然而它会正确地学习 OR 我
为什么我在此语音识别代码中缺少 an4-1-1.match 文件？

我在语音识别的解码部分遇到问题我按照步骤操作here http www speech cs cmu edu sphinx tutorial html 当我输入 perl scripts pl decode slave pl 我收到这些错误
Keras：使用 flow_from _directory() 函数为两个输入模型创建自定义生成器

我试图用以下方法训练我的暹罗网络fit generator 我从这个答案中了解到 Keras 如何将 fit generator 与多个输入一起使用 https stackoverflow com questions 49404993 ke
Tensorflow 中的平衡准确度分数

我正在为高度不平衡的分类问题实现 CNN 并且我想在张量流中实现自定义指标以使用选择最佳模型回调具体来说我想实现平衡的准确度分数这是每个类别的召回率的平均值请参阅 sklearn 实现here https scikit lear
Matlab - 神经网络训练

我正在努力创建一个具有反向传播的 2 层神经网络神经网络应该从 20001x17 向量获取数据该向量在每行中包含以下信息前 16 个单元格包含从 0 到 15 的整数它们充当变量帮助我们确定在看到这些变量时要表达的 26 个字母中
Keras：模型准确率在达到 99% 准确率后下降，损失为 0.01

我正在 keras 中使用改编的 LeNet 模型来进行二元分类我有大约 250 000 个训练样本比率为 60 40 我的模型训练得很好第一个 epoch 的准确率达到 97 损失为 0 07 10 个 epoch 后准确率超过
随着新数据的出现，如何增量训练 FANN？

我使用 FANN 库构建并训练了一个神经网络这是初步培训大部分数据将在线收集当在线数据可用时我想要improve使用这些新数据的网络不是重新训练而是使之前的训练更加准确如何用FANN来做这种增量训练呢从更改为的文件进行训练 s
如何从 JavaScript 使用 Opus 编解码器

我想看看是否可以使用直接访问 OpusgetUserMedia或最新浏览器中的任何类似内容我对此进行了很多研究但没有取得好的结果我知道 Opus 或 Speex 实际上用于webkitSpeechRecognitionAPI 我想做语
如何使用其他语言的语音识别 android

我有一个曾经有效的代码但由于某种原因它突然停止工作我正在尝试使用希伯来语语音识别但似乎从几天前开始它才开始英语语音识别这是我的代码 sr SpeechRecognizer createSpeechRecognizer getAppl
Keras模型拟合多项式

我从四次多项式生成了一些数据并希望在 Keras 中创建一个回归模型来拟合该多项式问题是拟合后的预测似乎基本上是线性的由于这是我第一次使用神经网络我认为我犯了一个非常微不足道且愚蠢的错误这是我的代码 model Sequentia
实例标准化与批量标准化

据我所知批量归一化通过将激活转向单位高斯分布来帮助加快训练速度从而解决梯度消失问题批量归一化行为在训练使用每个批次的平均值 var 和测试时间使用训练阶段的最终运行平均值 var 时应用不同另一方面实例归一化充当本文提到的对比
神经网络的局部逆

我有一个带有 N 个输入节点和 N 个输出节点的神经网络可能还有多个隐藏层和循环但让我们先忘记这些神经网络的目标是学习一个N维变量Y 给定N维值X 假设神经网络的输出是Y 学习后应该接近Y 我的问题是是否有可能得到输出 Y 的神经网
将数值和分类数据混合到具有密集层的 keras 序列模型中

我在 Pandas 数据框中有一个训练集我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
帮助我在 Python 中实现反向传播

EDIT2 新的训练集 Inputs 0 0 0 0 0 0 1 0 0 0 2 0 0 0 3 0 0 0 4 0 1 0 0 0 1 0 1 0 1 0 2 0 1 0 3 0 1 0 4 0 2 0 0 0 2 0 1 0 2 0 2
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
如何在iOS SDK中使用语音识别？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我知道 SIRI 服务没有公共 API 但是有没有简单的语音识别 API 因此如果我有一个文本字段并且
为神经网络打乱两个 numpy 数组

我有两个 numpy 数组用于输入数据 X 和输出数据 y X np array 2 3 sample 1 x 16 4 dtype float sample 2 x y np array 1 0 sample 1 y 0 1 dtype
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax

随机推荐

模式视图关闭时不调用 ViewDidAppear

首先我创建一个 MainViewController 然后在 MainViewController 中我这样做 self presentViewController modalViewController animated YES co
为什么窗口或文档不能设置为 undefined 或 null？

这可能是一个愚蠢的问题但我还没有找到答案为什么我们不能做到以下几点 window undefined OR document undefined 我知道这些是全局变量并且可以在浏览器中使用但是想想 JavaScript 是如何工作的
EJB @Asynchronous 检索 JSF 中实时插入的行似乎是线程锁定的

我正在努力实现以下目标 EJB3单例 Singleton Startup public class SomeSingleton implements SomeSingletonLocal Entity Manager injection p
如何在Java中隐藏JFrame窗口上默认的最小化/最大化和关闭按钮？

我想知道是否可以创建一个JFrame窗口没有默认的最大化最小化和关闭 x 按钮我在每个框架上添加了自定义按钮这样用户就不必弄乱窗口右上角的默认按钮您可以使用JWindow因为默认情况下是 un decorated 但是你可以set
如何防止可调整大小和可拖动元素相互折叠？

大家好我有以下代码 http jsfiddle net g7Cgg 正如您所看到的有 2 个简单的 DIV 相互堆叠在一起每个 DIV 也都设置为可调整大小和可拖动但是请注意当您尝试调整第一个元素的大小时第二个元素会折叠到第一
计算曼德尔布罗集合迭代时遇到问题

所以我读了这篇文章 http www wikihow com Plot the Mandelbrot Set By Hand但我被困在第 7 步我正在 javascript 画布中绘制集合我所需要的基本上就是我猜测的C值 for var
无法获取用户 IP 地址（代理/防火墙/负载均衡器）

我之前使用下面的代码通过asp net获取客户端IP 但在我转移到VDS之后这个函数开始只返回我的子网掩码即178 18 198 1或178 18 198 2 谁能帮我解决这个问题吗 Private Function GetIPAddr
Spring：单元和集成测试

我正在寻找使用 Spring 设置单元和集成测试的最佳实践我通常使用 3 种测试真正的单元测试无依赖项测试作为单元测试运行内存数据库本地调用模拟对象或作为集成测试持久数据库远程调用测试仅作为集成测试运行目前我
Flask-Login 显示 401，而不是重定向到登录视图

使用 Flask Login 我想要求某些视图登录当我尝试访问装饰有的视图时 login required 我收到 401 消息而不是登录页面我该如何正确设置 from flask login import LoginManager l
jQuery 验证停止表单提交

我正在使用 jQuery 验证表单但是当验证表单时它会重新加载或提交页面我想停止该操作我已经使用了 event preventDefault 但它不起作用这是我的代码 step1form validate step1form on
Doctrine 不会在 Mysql 中保留具有布尔值和 PDO::ATTR_EMULATE_PREPARES = false 的实体

我们正在使用 Symfony 来创建一些 Web 服务我们使用 Doctrine ORM 来存储实体使用 Doctrine DBAL 来检索数据因为它非常轻并且可以重用 ORM 实体管理器连接当使用 Doctrine DBAL
Django 模板中的数字 for 循环

怎样写一个数字for在 Django 模板中循环我的意思是像 for i 1 to n 我使用了一种简单的技术非常适合没有特殊标签和附加上下文的小案例有时这会派上用场 for i in 0123456789 make list for
杀死一个正在运行的线程

如果我们强行终止正在运行的线程会发生什么我有一个线程RecordThread 它调用一些复杂且耗时的函数在我使用的这些函数中试着抓块分配和释放内存以及使用临界区变量等 like void RecordThread AddRecord
使用 python 请求获取 eBay 访问令牌（交换身份验证令牌）

我正在尝试使用本指南获取访问令牌这是我的主文件 import requests from utils import make basic auth header conf code
Xamarin.Forms：Android 项目生成错误 - AppData\Local\Xamarin 文件夹内缺少文件

我正在尝试 Xamarin Forms 我创建了一个名为 App2 的解决方案 Visual Studio 自动创建了以下项目应用程序2 便携式 App2 Droid App2 iOS 当我尝试编译 Android 项目 App2 Dro
标准 Android 菜单图标，例如刷新 [关闭]

Closed 这个问题是无关目前不接受答案 Android SDK 通过以下方式提供标准菜单图标android R drawable X 然而一些标准图标例如ic menu refresh 刷新图标缺失android R 有没有办法
在 XCode 6 中如何设置观察点而不停止执行？

您可以按照以下步骤轻松在 XCode 中设置观察点顺便说一句如果有更简单的方法我想知道运行你的程序在使用变量的代码中设置断点到达断点时右键单击变量并选择 Watch nameOfTheVariable 继续执行唯一的问题是每
Backbone集合集合属性（针对url）

我需要将 id 传递给集合以在 url 中使用例如 user 1234 projects json 但我不知道如何执行此操作一个示例会很棒我的应用程序的结构方式是在启动时提取并呈现用户集合然后我希望当用户单击时将其文档从服
在 PHP PDO postgres 中处理布尔输入？

有没有更好的方法来处理布尔输入postgresPHP 中的 PDO 驱动程序在 PHP PDO 中转换布尔值false到和true到 1 这会导致某些语句中出现如下错误 00000 7 ERROR invalid input synta
简单的语音识别方法

是的我知道语音识别相当复杂轻描淡写我正在寻找的是一种区分的方法maybe20 30 个短语分割单词的能力离散语音很好会很好但不是必需的该软件将取决于用户即供我使用我不是在寻找现有的软件而是在寻找一种自己做这件事的好方法

简单的语音识别方法

简单的语音识别方法 的相关文章

随机推荐

热门标签

简单的语音识别方法的相关文章