寻找发音的正确性

2024-05-01

我需要借助 Microsoft 语音 SDK 来识别用户发音的“质量”（System.Speech.Recognition）。我使用的是 MS Speech Engine - US，所以我实际需要的是找出说话者的声音与“北美”口音的接近程度。

实现此目的的一种方法是检查用户的语音与美国英语语音发音的接近程度。正如MSDN中提到的，这个过程似乎是在语音SDK内部完成的，所以我需要把它弄出来。由于我们也可以自己将拼音设置为引擎，所以我确信这是可能的。

但是，我不清楚我必须做什么。那么，如何才能了解用户的发音质量/与美国北美英语音标发音的接近程度呢？用户只需说出预定义的句子，例如“Hello World。我在这里”。

Update

我通过使用以下代码获得了某种“音素”（如 MSDN 中所述）

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Speech.Recognition;
using System.Speech.Synthesis;
using System.Windows.Forms;
using System.IO;

namespace US_Speech_Recognizer
{
    public class RecognizeSpeech
    {
        private SpeechRecognitionEngine sEngine; //Speech recognition engine
        private SpeechSynthesizer sSpeak; //Speech synthesizer
        string text3 = "";

        public RecognizeSpeech()
        {
            //Make the recognizer ready
            sEngine = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US"));


            //Load grammar
            Choices sentences = new Choices();
            sentences.Add(new string[] { "I am hungry" });

            GrammarBuilder gBuilder = new GrammarBuilder(sentences);

            Grammar g = new Grammar(gBuilder);

            sEngine.LoadGrammar(g);

            //Add a handler
            sEngine.SpeechRecognized +=new EventHandler<SpeechRecognizedEventArgs>(sEngine_SpeechRecognized);


            sSpeak = new SpeechSynthesizer();
            sSpeak.Rate = -2;



            //Computer speaks the words to get the phones
            Stream stream = new MemoryStream();
            sSpeak.SetOutputToWaveStream(stream);


            sSpeak.Speak("I was hungry");
            stream.Position = 0;
            sSpeak.SetOutputToNull();


            //Configure the recognizer to stream
            sEngine.SetInputToWaveStream(stream);

            sEngine.RecognizeAsync(RecognizeMode.Single);


        }


        //Start the speech recognition task
        private void sEngine_SpeechRecognized(object sender, SpeechRecognizedEventArgs e)
        {
            string text = "";

            if (e.Result.Text == "I am hungry")
            {
                foreach (RecognizedWordUnit wordUnit in e.Result.Words)
                {
                    text = text + wordUnit.Pronunciation + "\n";
                }

                MessageBox.Show(e.Result.Text + "\n" + text);
            }


        }
    }
}

这是与音素相关的直接代码片段（摘自上面的代码）

   //Start the speech recognition task
    private void sEngine_SpeechRecognized(object sender, SpeechRecognizedEventArgs e)
    {
        string text = "";

        if (e.Result.Text == "I am hungry")
        {
            foreach (RecognizedWordUnit wordUnit in e.Result.Words)
            {
                text = text + wordUnit.Pronunciation + "\n";
            }

            MessageBox.Show(e.Result.Text + "\n" + text);
        }


    }

以下是我的输出。我得到的音素从第二行开始显示。第一行仅显示识别的句子

所以，请告诉我，根据 MSDN，这是“音素”。那么，这实际上是“音素”吗？我从来没有见过这些，这就是原因。

上面的代码是根据这个链接完成的http://msdn.microsoft.com/en-us/library/microsoft.speech.recognition.srgsgrammar.srgstoken.pronunciation(v=office.14).aspx http://msdn.microsoft.com/en-us/library/microsoft.speech.recognition.srgsgrammar.srgstoken.pronunciation(v=office.14).aspx

好的，这就是我解决这个问题的方法。

首先，使用发音主题加载听写引擎，该主题将返回用户所说的音素（在识别事件中）。

其次，使用以下命令获取该单词的参考音素ISpEnginePronunciation::GetPronunciations http://msdn.microsoft.com/en-us/library/ms717841%28v=VS.85%29.aspx方法（正如我概述的here https://stackoverflow.com/a/2909005/175201).

一旦获得两组音素，您就可以比较它们。本质上，音素由空格分隔，每个音素由一个短标签表示（在美式英语音素表示 http://msdn.microsoft.com/en-us/library/ee431828%28v=vs.85%29.aspx规格）。

鉴于此，您应该能够通过任意数量的近似字符串匹配方案（例如，编辑距离 http://en.wikipedia.org/wiki/Levenshtein_distance).

通过比较电话 ID 而不是字符串，您可能会发现问题更简单；ISpPhoneConverter::PhoneToId http://msdn.microsoft.com/en-us/library/ms718373(v=vs.85).aspx可以将音素字符串转换为一组phoneID，每个音素一个ID。这将为您提供一对以空结尾的整数数组，也许更适合您的比较算法。

您可以使用引擎置信度来惩罚匹配，因为低引擎置信度表明传入的音频与引擎的音素概念不紧密匹配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

寻找发音的正确性的相关文章

如何使用 ASP.NET MVC 编辑多选列表？

我想编辑一个如下所示的对象我希望用 UsersGrossList 中的一个或多个用户填充 UsersSelectedList 使用 mvc 中的标准编辑视图我只得到映射的字符串和布尔值下面未显示我在 google 上找到的许多示例都
我如何知道 C 程序的可执行文件是在前台还是后台运行？

在我的 C 程序中我想知道我的可执行文件是否像这样在前台运行 a out 或者像这样 a out 如果你是前台工作 getpgrp tcgetpgrp STDOUT FILENO or STDIN FILENO or STDERR FIL
XPATH 查询、HtmlAgilityPack 和提取文本

我一直在尝试从名为 tim new 的类中提取链接我也得到了解决方案给出了解决方案片段和必要的信息here https stackoverflow com questions 2982862 extracting a table ro
进程退出后 POSIX 名称信号量不会释放

我正在尝试使用 POSIX 命名信号量进行跨进程同步我注意到进程死亡或退出后信号量仍然被系统打开在进程打开它死亡或退出后是否有办法使其关闭释放早期的讨论在这里当将信号量递减至零的进程崩溃时如何恢复信号量 https sta
MFC CList 支持复制分配吗？

我在 MSVC 中查找了 CList 定义afxtempl h http www cppdoc com example mfc classdoc MFC AFXTEMPL H html并记录在MSDN http msdn microsoft
将设置函数（setter）标记为 constexpr 的目的是什么？ [复制]

这个问题在这里已经有答案了我无法理解将 setter 函数标记为的目的constexpr 自 C 14 起这是允许的我的误解来自以下情况我使用 constexpr c tor 声明一个类并且我将通过创建该类的 constexpr 实
全局使用和 .NET Standard 2.0

我最近意识到我可以使用 C 10 功能文件范围的命名空间在 NET Standard 2 0 项目中也可以通过设置
带有运算符语法的错误消息，但不带有函数语法的错误消息

为什么我在调用 unary 时收到错误消息使用运算符语法如果我用函数语法调用它就可以了现场演示 https godbolt org z j7AbeQ template
Docker 警告：无法从守护进程获取默认注册表端点

在 Windows 10 上当我调用 docker 命令时 docker pull mongo windowsservercore 我得到以下输出 Warning failed to get default registry endpoi
用于连接 DataTable 上的动态列的动态 LINQ

我目前遇到的情况不确定如何继续我有两个从数据库填充的数据表我还有一个可用的列名称列表可用于将这两个数据表连接在一起我希望编写一组 LINQ 查询这些查询将显示两个数据表中的行内部联接用于从一个数据表更新另一个数据表显示一个
Resharper：IEnumerable 的可能多重枚举

我正在使用新的 Resharper 版本 6 在我的代码中的几个地方它给一些文本加了下划线并警告我可能存在IEnumerable 可能的多重枚举我理解这意味着什么并在适当的情况下采纳了建议但在某些情况下我不确定这实际上是一个大问
为什么不能调用带有 auto& 参数的 const mutable lambda？

include
使用 xslt 将 xml 转换为 xsl-fo 时动态创建超链接？

我想使用 xsl 文件在 PDF 报告中创建标题如果源文件包含超链接则应将其呈现为超链接否则呈现为纯文本例如我的 xml 如下所示 a href http google com target blank This is the h
浮点字节序？

我正在为实时海上模拟器编写客户端和服务器并且由于我必须通过套接字发送大量数据因此我使用二进制数据来最大化可以发送的数据量我已经了解整数字节顺序以及如何使用htonl and ntohl为了规避字节顺序问题但我的应用程序与几乎所有模拟
C 语言中的 Alpha 混合 2 RGBA 颜色[重复]

这个问题在这里已经有答案了可能的重复如何快速进行阿尔法混合 https stackoverflow com questions 1102692 how to do alpha blend fast 对 2 个 RGBA 整数颜色进行
Xamarin.Forms UWP 项目中标题栏和选项卡之间令人恼火的空白

我几乎是新手Xamarin Forms我正在开发一个相当简单的跨平台应用程序该应用程序在 Android 中显示得足够好但在 UWP 中却出现了一个愚蠢的空白该项目由一个 TabbedPage 组成其中包含 4 个 Navigati
如何将 int 作为“void *”传递给线程启动函数？

我最初有一个用于斐波那契变量数组的全局变量但发现这是不允许的我需要进行基本的多线程处理并处理竞争条件但我无法在 pthread 创建中将 int 作为 void 参数提供我尝试过使用常量指针但没有成功由于某些奇怪的原因 void
“必须声明标量变量”错误[重复]

这个问题在这里已经有答案了必须声明标量变量 Id SqlConnection con new SqlConnection connectionstring con Open SqlCommand cmd new SqlCommand cm
为什么表达式 a = a + b - ( b = a ) 在 C++ 中给出序列点警告？

以下是测试代码 int main int a 3 int b 4 a a b b a cout lt lt a lt lt a lt lt lt lt b lt lt b lt lt n return 0 编译此命令会出现以下警告 gt g
C++ Boost ASIO 简单的周期性定时器？

我想要一个非常简单的周期性计时器每 50 毫秒调用我的代码我可以创建一个始终休眠 50 毫秒的线程但这很痛苦我可以开始研究用于制作计时器的 Linux API 但它不可移植 I d like使用升压我只是不确定这是否可能 boost

随机推荐

Bootstrap 与 Haml 和 Rails 一起崩溃

我对 Rails 编程等很陌生所以如果这是非常基本的我很抱歉我正在尝试让 twitter bootstrap crash js 在我的网络应用程序上工作我试图遵循这里的结构http getbootstrap com javascri
如何在 Tensorflow 中计算 R^2

我正在尝试在 Tensorflow 中进行回归我不确定我计算 R 2 是否正确因为 Tensorflow 给出的答案与sklearn metrics r2 score有人可以看看我下面的代码让我知道我是否正确地实现了图中的方程谢谢
如何调试没有错误消息的错误？

如何调试没有错误消息的错误当加载 PHP 页面时我在 Firefox 中收到此错误 The connection to the server was reset while the page was loading 除了看起来是 Apa
如何在编译时检查该类是否是抽象的？

我所说的抽象类是指至少具有一个纯虚方法的类如果检查显示该类是我希望编译失败not抽象的有可能吗 Use std is abstract http en cppreference com w cpp types is abstract
请求/响应的 MQTT 主题名称

我正在设计一个包含许多设备的系统使用 MQTT 连接到中央代理有些主设备可以向某些从设备发送请求来自一台主机的请求通常会发送给一台从机请求的主题可以是 mysystem slaveId req 因此从站可以订阅该主题并且主站可以发
使用包名称获取所有活动

我想通过使用 PackageInfo 将应用程序中存在的所有活动作为列表获取请告诉我有什么办法可以做到这一点提前致谢我的问题得到的答复如下 public static ArrayList
如何在类的 Dispose 方法中取消订阅匿名函数？

我有一个 A 类在它的构造函数中我正在为 Object B 的 eventHandler 分配一个匿名函数如何从 A 类的 Dispose 方法中删除取消订阅它任何帮助将不胜感激谢谢 Public Class A publi
检查 UIImage 是否有 alpha（透明）颜色时出现问题

我正在检查图像是否有透明区域 alpha 受到打击我必须改变颜色UIImage 我已经实现了以下方法来检查图像是否有alpha or not BOOL checkAlpha UIImage image for int x 0 x lt i
空或不需要的结构字段

我有两个结构体代表将插入到 mongodb 数据库中的模型一个结构投资将另一个结构集团作为其字段之一 type Group struct Base Name string json name bson name type Inv
在 Checkbox.Checked 或 Unchecked 上执行命令

我的窗口上有一个复选框控件我想执行一个命令来调用关联视图模型中的方法我还需要复选框的值我似乎找不到将命令与复选框关联起来的方法有人这样做过吗
在鼻子测试中打印不同的长描述以及测试名称 python

我正在使用命令 nosetests test py 运行时仅打印描述的第一行我想要完整的描述以及测试名称我怎么做测试 py 文件 import unittests class TestClass unittest TestCase d
pdo如何检查它是否是从数据库检索的第一条记录？

sql3 SELECT member FROM levels where upline AND level 1 q3 conn gt prepare sql3 q3 gt execute array level2downlines whil
无法分配“导入类”，因为它是导入 - Javascript

我一直在初始化一些常量类 export class A foo string b B export class B bar number 然后将它们导入另一个类并在另一个文件中初始化它们但是如果我想初始化 A 类时使用 B 类时遇到问题
开发 Google Assistant 应用程序的成本？

开发和或发布 Google Assistant 应用程序涉及哪些成本例如您可以使用 DialogFlow 和后端例如 Firebase 开发应用程序而无需在学习时付费吗首先你不need使用 Dialogflow 或 Fireb
在 C++ 中将惰性生成器实现为forward_iterator

MyGenerator 表示可能有限的整数序列计算成本很高所以我不想预先生成它们并将它们放入容器中 struct MyGenerator bool HasNext int Next 要打印全部 MyGenerator generat
使用 cut 为时间变量创建 24 个类别

在这里我导入数据对其进行一些操作这可能不是问题修复所在前两行设置了我的剪切参数 lab var num lt 0 24 times var lt c 0 100 200 300 400 500 600 700 800 900 10
如何使用 toLocaleTimeString 12 小时时间而不使用 AM/PM 缩写？

我想以 12 小时格式显示时间而不使用AM and PM 例如3 45仅且不3 45 PM or 3 45 AM 我该如何修改toLocaleTimeString 不显示PM AM但12位数字格式 var minsToAdd 45 var
Cassandra 集群 - 特定节点 - 特定表高丢弃突变

我在生产中的压缩策略是 LZ4 压缩但我将其修改为 Deflate 对于压缩更改我们必须使用 nodetool Upgradesstables 强制升级所有 sstable 上的压缩策略但是一旦在集群中的所有 5 个节点上完成了 U
如何使用语法突出显示 zsh 函数的自动建议

我使用 zsh 并编写了一个函数来替换 cd 功能在一些帮助下我让它按照我想要的方式工作大部分这是后续我的另一个问题之一 https stackoverflow com questions 64463599 cant use in
寻找发音的正确性

我需要借助 Microsoft 语音 SDK 来识别用户发音的质量 System Speech Recognition 我使用的是 MS Speech Engine US 所以我实际需要的是找出说话者的声音与北美口音的接近程度实现此

寻找发音的正确性

Update

寻找发音的正确性 的相关文章

随机推荐

热门标签

寻找发音的正确性的相关文章