语音识别和语调检测

2024-04-25

我想做一个 iOS 应用来计算疑问句。我会寻找 WH 问题以及“我会吗?”格式化问题。

我对语音或音频技术领域不太了解,但我Google了一下,发现语音识别SDK很少。但仍然不知道如何检测和绘制语调。是否有支持语调或情感语音识别的 SDK?


据我所知,没有基于云的语音识别 SDK 也可以为您提供语调。您可以搜索音高跟踪解决方案并从音高轮廓中导出语调。一个开源的可以在librosaPython 中的包:

https://librosa.org/librosa/ generated/librosa.core.piptrack.html https://librosa.org/librosa/generated/librosa.core.piptrack.html

如果您无法在应用程序中嵌入 Python,则始终可以选择在 REST API 中提供它:Flask or fastapi.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

语音识别和语调检测 的相关文章

  • 以编程方式从底部裁剪图像

    我正在开发自定义相机应用程序 一切进展顺利 但我在从底部裁剪图像时遇到了问题 即 裁剪后的图像与原始图像具有完全相同的宽度 但高度将为原始图像的 1 3 并且必须从底部开始 斯威夫特3解决方案 func cropBottomImage im
  • iOS 解决方法:在没有 CSS 属性的情况下平滑滚动 滚动行为:平滑?

    编辑 我找到了一个 jQuery 解决方案 https codepen io chriscoyier pen dpBMVP https codepen io chriscoyier pen dpBMVP这个确实可以在 iOS 上运行 我想
  • 在视图之间传递核心数据实体变量

    我无法理解如何在视图之间使用核心数据实体变量 为了更好地理解我的问题是什么 我的代码如下 View A 基本上 您必须将完整预算实体或相关预算实体的 ID 从视图 A 传递到视图 B 由于不知道您的应用程序的视图层次结构和逻辑 我假设您选择
  • AWS S3 公共对象与私有对象?

    回到 S3 我的存储桶中有图像的 URL 我将在我的应用程序中呈现这些图像 但它们被设置为私有 当我尝试单击该链接时 它显示 访问被拒绝 当我将链接的设置更改为公共时 它会通过 但是我读到公共访问并不是最安全的事情 所以这本质上是一个由两部
  • iOS 视图控制器内存在被关闭后未释放

    当用户单击按钮时 它会显示一个带有两个视图控制器的新选项卡栏视图控制器 我是这样做的 ACLevelDownloadController dvc ACLevelDownloadController alloc initWithNibName
  • ios - Gamekit 的 GKOctree 未找到元素

    我正在尝试使用GKOctree https developer apple com documentation gameplaykit gkoctree用于高效检索 3D 空间中的对象 然而 以下代码似乎没有按预期工作 import Gam
  • ios7 navigationController PushViewController 动画错误

    看来我在 navigationController PushViewController 方法中发现了一个错误 为了重新创建它 我采用了示例主详细信息项目并对 didSelectRow method void tableView UITab
  • SwiftUI:状态栏颜色

    有没有办法将 SwiftUI 视图的状态栏更改为白色 我可能错过了一些简单的东西 但我似乎找不到在 SwiftUI 中将状态栏更改为白色的方法 到目前为止我只看到 statusBar hidden Bool 状态栏文本 色调 前景色可以通过
  • 从命令行调试 iOS 应用程序构建

    我正在通过命令行构建 iOS 应用程序 但在调试它时遇到问题 如果我使用 XCode 进行构建 它会让我在设备上 构建和调试 而不会出现任何问题 但现在 我不知道如何使用 gdb 在设备上启动它并逐步执行它 如果我尝试 添加自定义目标 可执
  • iPhone UINavigationBar 使用 [UINavigationBar 外观] 更改所有控制器的字体样式

    我知道我可以单独更改导航栏的字体 如本答案所述 更改导航栏的字体 https stackoverflow com questions 5832036 change the navigation bars font 目前我正在使用一种更全局的
  • 错误域=AVFoundationErrorDomain代码=-11814“无法记录”

    它不断给我错误 错误域 AVFoundationErrorDomain代码 11814 无法记录 我不确定问题是什么 我试图在拍照后计数器达到 1 时录制声音 static int counter counter will always b
  • iOS 滚动视图允许滚动过去的内容

    我正在努力优化我的应用程序以适应横向和较小的屏幕 我主要使用滚动视图来实现这一点 在我的其中一个视图中 我有一个容器视图 当我在故事板中的设备之间切换时 这个容器视图看起来很完美 容器视图映射到具有滚动视图的视图控制器 该滚动视图的顶部 底
  • iOS 中的构建对象文件扩展名是什么?

    当我在项目中构建java对象类时 将创建带有 class扩展名的构建文件 并且人类不可读 快速构建文件怎么样 example car java gt build gt car class 构建后会是什么 car swift gt build
  • 如何恢复消耗品应用内购买?

    我正在开发一款 iOS 游戏 用户可以通过应用内消耗品购买一定数量的内部货币 比如 1000 金币 如果用户想将余额从一台设备转移到另一台设备 如何恢复消耗品购买 在苹果的文档中 它说我们必须使用我们自己的服务器 但是如何获取用户的Appl
  • 进入前台后刷新数据

    更改默认设置后 我想在AppDelegate中进入前台时刷新myViewController的数据 我所做的是 AppDelegate m void applicationDidFinishLaunching UIApplication a
  • iOS:提高图像绘制速度

    我有一系列想要制作动画的图像 UIImageView支持一些基本的动画 但不足以满足我的需求 我的第一个方法是使用UIImageView并设置image当图像属性 这太慢了 速度慢的原因是图像的绘制 这让我感到惊讶 我以为瓶颈会加载图像 我
  • 关于窗口层次结构的警告

    我的调试器中出现这样的警告 这是什么意思 Warning Attempt to present
  • 个人帐户开发者之间的 Apple 开发/分发证书

    我一直在到处寻找有关处理证书的正确答案 想象一下以下帐户 Joe拥有个人 Apple 帐户 但他根本不会编码 他只是发布了该应用程序并将其称为自己的 Bob还有一个个人 Apple 帐户 Bob 是一位编码专家 Joe 付费让他开发他的第一
  • 我怎样才能勾勒出文本字体?

    我想在边框 轮廓 中显示另一种颜色的文本 我正在尝试使用在 MapOverlayView 中显示文本 text drawAtPoint CGPointMake 0 30 withFont UIFont fontWithName Helvet
  • 指定访问组时出现 KeychainItemWrapper 错误

    相当长一段时间以来 我一直在使用 KeychainItemWrapper 的 ARC 版本成功读取和写入私有钥匙串项目 我现在正在努力将我的 iOS 应用程序转换为使用共享访问组 以便我的 2 个共享相同应用程序前缀的应用程序可以访问钥匙串

随机推荐

  • 从图像中识别数字

    我正在尝试编写一个应用程序来查找图像内的数字并将它们相加 如何识别图像中的书写数字 图像中有很多框 我需要获取左侧的数字并将它们相加得出总数 我怎样才能实现这个目标 编辑 我对图像进行了 java tesseract ocr 但没有得到任何
  • 访问 bootstrap-wysihtml5 编辑器对象

    我正在尝试访问 bootstrap wysihtml5 编辑器对象 我这样做是这样的 document ready function someLink live click function var wysihtml5Editor text
  • 修复 HTML/CSS 中元素的对齐方式

    我有以下代码 function var quotes quotes var quoteIndex 1 function showNextQuote quoteIndex quotes eq quoteIndex quotes length
  • 在 C# 中跟踪文件大小变化[重复]

    这个问题在这里已经有答案了 可能的重复 C 获取文件更改事件 https stackoverflow com questions 3948542 c sharp get file change events 我想使用 C 在达到特定大小时跟
  • 从 Python 中的 OLS 摘要获取 Durbin-Watson 和 Jarque-Bera 统计数据

    我正在运行一列值的 OLS 摘要 OLS 的一部分是 Durbin Watson 和 Jarque Bera JB 统计数据 我想直接提取这些值 因为它们已经被计算出来 而不是像我现在使用 durbinwatson 那样将这些步骤作为额外步
  • 如何将对堆栈变量的引用传递给线程?

    我正在编写一个 WebSocket 服务器 其中 Web 客户端连接以与多线程计算机 AI 下棋 WebSocket 服务器想要传递一个Logger对象到 AI 代码中 这Logger对象会将日志行从 AI 传送到 Web 客户端 这Log
  • 如何在两个表单之间传递文本框数据?

    如何通过按钮在不使用 Show ShowDialog 的情况下将文本框值发送到两个表单之间的文本框 我希望文本框无需打开表单即可获取值 要访问文本框数据 您需要使用 textBox1 Text 表单是一个对象 因此您可以定义一个更新文本框值
  • 如何在我的应用中将 Google 地图语言更改为印地语?

    我在 Android 应用程序中使用 Google 地图 我在我的应用程序中实现了语言本地化 因此 我希望每当用户更改应用程序语言时 谷歌地图语言也会更改为印地语 我尝试了以下方法来更改应用程序中 Google 地图的语言 String l
  • 在 Django 中提供 Rails-way i18n 支持的好方法

    新 Rails 中有一件事让我羡慕 国际化支持 Django 也有一项 但我更喜欢 Rails 的风格 Rails 和 Django 方法之间的主要区别在于哪种字符串的行为类似于键值转换映射中的键 即 Django 版本 键 主要 语言的字
  • 在 python 中将 Latex 代码转换为 mathml 或 svg 代码

    是否有任何 python 代码允许获取乳胶代码 用于方程 并将其解析为 mathml 或 svg 代码 一个以字符串 latex 代码 作为参数并输出字符串 svg 或 mathml 代码 的简单函数将是完美的 附言 我找到了这个http
  • Bootstrap 4 导航栏
  • 列表
  • 我需要一些有关引导导航栏的帮助 Bootstrap v4 0 0 beta 3 我必须更改什么才能使按钮文本是单行而不是彼此之间 当该行已满时 其他按钮应从下一行的左侧开始 目前我使用这段代码
  • 服务器中的 Firebase 令牌管理

    我对 firebase 和 android 通知还是很陌生 我希望能够根据某些规则向单个用户发送通知 到目前为止我读到的是可以通过以下方式生成令牌 FirebaseInstanceId getInstance getToken 然后 令牌在
  • 您可以将 CMFCVisualManager 与基于对话框的应用程序一起使用吗?

    您可以将 CMFCVisualManager 与基于对话框的应用程序一起使用来更改应用程序的外观吗 如果是这样 它是如何完成的 这个想法是使用随 MSVC 2008 发布的 MFC 功能包来更改控件 例如按钮 的形状 颜色等 不 不能这样做
  • 必须在 PIMPL 中提供析构函数

    main pimpl sample cpp include pimpl sample hpp using namespace std int main pimpl sample p return 0 pimpl sample cpp inc
  • Hololens 模拟器中的网络摄像头支持

    笔记本电脑的网络摄像头可以在最新的Hololens模拟器中使用吗 我正在关注这个教程https learn microsoft com en us windows mixed reality mr azure 302 https learn
  • Byte-Buddy:方法拦截 InvoiceHandler 与 MethodDelegation 到 GeneralInterceptor

    我使用 Byte Buddy 动态生成 Java 接口方法的实现 并将对这些方法的调用委托给现有代理对象的单个方法 第一个版本的灵感来自如何使用 ByteBuddy 创建动态代理 https stackoverflow com questi
  • 根据当前用户过滤 Power BI 报告

    我们目前正在为我们公司开发 Power BI 仪表板 Office 365 并希望根据当前用户的偏好定制仪表板上的信息 我们公司有多个部门和子部门 因此向所有用户显示每个部门的数据会适得其反 例如 如果 Bob 属于欧洲销售 他将仅看到欧洲
  • 通过 Discord OAuth 传递字符串?

    我想知道是否可以使用 Discord OAuth 识别范围 同时还将重要的补充信息传递到重定向 URL site with important variable gt oauth page gt site that needs import
  • 超时设置为无限时间时出现超时异常

    在我的 C NET 3 5 应用程序中 我使用 CastleProject ActiveRecord 而不是 NHibernate 这是使用 MS SQL Server 2008 的桌面应用程序 我已将 ADO 命令超时设置为 0 以防止批
  • 语音识别和语调检测

    我想做一个 iOS 应用来计算疑问句 我会寻找 WH 问题以及 我会吗 格式化问题 我对语音或音频技术领域不太了解 但我Google了一下 发现语音识别SDK很少 但仍然不知道如何检测和绘制语调 是否有支持语调或情感语音识别的 SDK 据我