在音频分析中绘制频谱图

2023-12-24

我正在研究使用神经网络的语音识别。为此，我需要获取这些训练音频文件 (.wav) 的频谱图。如何在 python 中获取这些频谱图？

有很多方法可以做到这一点。最简单的方法是查看中提出的方法关于 Kaggle 竞赛TensorFlow 语音识别挑战赛 https://www.kaggle.com/c/tensorflow-speech-recognition-challenge（仅按投票最多的排序）。This one https://www.kaggle.com/alphasis/light-weight-cnn-lb-0-74特别清晰简单，包含以下功能。输入是从 wav 文件中提取的样本的数值向量、采样率、帧大小（以毫秒为单位）、步长（跨步或跳过）大小（以毫秒为单位）和一个小偏移量。

from scipy.io import wavfile
from scipy import signal
import numpy as np

sample_rate, audio = wavfile.read(path_to_wav_file)

def log_specgram(audio, sample_rate, window_size=20,
                 step_size=10, eps=1e-10):
    nperseg = int(round(window_size * sample_rate / 1e3))
    noverlap = int(round(step_size * sample_rate / 1e3))
    freqs, times, spec = signal.spectrogram(audio,
                                    fs=sample_rate,
                                    window='hann',
                                    nperseg=nperseg,
                                    noverlap=noverlap,
                                    detrend=False)
    return freqs, times, np.log(spec.T.astype(np.float32) + eps)

输出定义在SciPy手册 https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.spectrogram.html，但有一个例外，即频谱图使用单调函数 (Log()) 重新缩放，该函数对较大值的抑制作用远大于对较小值的抑制，同时使较大值仍然大于较小值。这样，规格中的极值就不会主导计算。或者，可以将值限制在某个分位数，但首选对数（甚至平方根）。还有许多其他方法可以标准化频谱图的高度，即防止极端值“欺负”输出:)

freq (f) : ndarray, Array of sample frequencies.
times (t) : ndarray, Array of segment times.
spec (Sxx) : ndarray, Spectrogram of x. By default, the last axis of Sxx corresponds to the segment times.

或者，您可以检查 train.py 和 models.py 代码github 仓库 https://github.com/tensorflow/tensorflow/tree/v1.4.0/tensorflow/examples/speech_commands来自音频识别的 Tensorflow 示例 https://www.tensorflow.org/tutorials/audio_recognition.

这是另一个线程 https://www.kaggle.com/timolee/audio-data-conversion-to-images-eda解释并给出了用 Python 构建频谱图的代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在音频分析中绘制频谱图的相关文章

可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
如何通过双击在浏览器中打开 ipynb 文件

以前我安装了 Canopy 当时我只需双击 ipynb 文件并在浏览器中打开它们即可但是后来我需要Anaconda 一旦我安装了它这个功能就没有了现在我只希望能够简单地双击 ipynb 文件然后该文件就会在 Firefox 中
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
无法截取宽度为 0 的屏幕截图

我正在尝试截取 Bootstrap 模态内元素的屏幕截图经过一番努力我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
将一个列表的元素除以另一个列表的元素

我有两个清单比如说 a 10 20 30 40 50 60 b 30 70 110 正如你所看到的列表 b 由一个列表的元素总和组成其中 window 2 b 0 a 0 a 1 10 20 30 etc 如何获得另一个列表该列表由
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ？

我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如
Django South - 将 null=True 字段转换为 null=False 字段

我的问题是转变的最佳做法是什么null True场变成null False使用 Django South 的字段具体来说我正在与ForeignKey 你应该先写一个数据迁移 http south aeracode org docs t

随机推荐

如何实现Linq OrderBy方法？

我试图更多地了解 linq 例如如果我想实现一个 Select 我会像这样实现 public static IEnumerable
ActionBarDrawerToggle 无法应用于 Android.support.v7.widget.Toolbar

我不断收到错误消息说 ActionBarDrawerToggle 无法应用于 v7 widget Toolbar 因为我查看了其他人如何修复类似问题它们现在都是支持库文件但由于某种原因错误并没有消失错误说ActionBarDrawe
如何防止 JList 在单元格边界之外进行选择？

当用户单击列表中最后一个元素时有什么方法可以阻止 JList 选择最后一个元素吗这是有人问的问题here http objectmix com java 72850 jlist selection outside cell bounds
使用通用 IHostBuilder 时访问 IServiceProvider

我在用着IHostBuilder在 NET Core 2 1 控制台应用程序中主要看起来像这样 public static async Task Main string args var hostBuilder new HostBuild
Java错误缺少返回语句

好吧我正在尝试编写这段代码但我不断收到这个愚蠢的错误我不知道我做错了什么所以也许你们中的一位专家可以帮助我 import java util public class School Random randQuest new Rand
有没有办法在单击后重新加载页面？

我想知道这一点我有一个简单的 facebook 连接应用程序只有在您登录并喜欢某个页面后才会显示某些内容它有效 huzzah 但我想让它在您按下喜欢按钮后自动刷新从而使其更加用户友好这是一些代码
Wicket：如何处理长时间运行的任务

我已经设置了一个 Wicket Hibernate Spring Web 应用程序其中涉及收集一些数据生成并返回一些文件将其存储在数据库中创建一些图像并将所有这些显示在网页上这对于短期运行来说效果很好但有时收集数据涉及一些远程
玩！框架 1.2.4 --- C3P0 设置以避免通信链路故障影响空闲时间

我正在尝试自定义我的 C3P0 设置以避免本文底部显示的错误这是在这个网址上建议的 http make it open blogspot com 2008 12 sql error 0 sqlstate 08s01 html http m
Vanilla Javascript 类中的“计算属性”

The 计算属性该功能在流行的 JS 框架 React VueJS 中很常见但是我们如何在普通 JS 中实现这个功能呢假设给定一个User类具有dateOfBirth属性我们想计算它的age 有没有比下面的代码更好的方法来执行此任务
在 View Pager 中的 Fragment 之间传递数据

在视图分页器中的片段之间传递数据时需要帮助我们尝试在片段内将数据作为包传递在 Fragment getInstance 方法内部尝试从其他 Fragment getArguments 获取数据活动代码 package com nor
jQuery ajax 请求因跨源而被阻止

如何通过ajax从远程url获取内容 jQuery ajax 请求因跨源而被阻止控制台日志跨源请求被阻止同源策略不允许读取远程资源位于http www dailymotion com embed video x28j5hv http
clang 构建 qt 的 mkspecs 是什么？

如果我想在Windows下使用gcc构建qt 配置选项是 platform win32 g 但是当我想使用clang构建qt时该选项是什么 clang windows 组合没有我认为根据 linux g 和 linux clang 之间
Twitter Fabric - 无法解析符号

我已经为 Android Studio 安装了 Twitter Fabric 插件这很简单直接但是当我从 Fabric 对话框复制并粘贴代码时我的项目无法识别任何 Twitter 对象例如以下行 private TwitterLog
Express 中间件、next 和 Promise

有一个非常简单的带处理程序的 Express 路由器 router get users userId roles roleId function req res next const roleId req params roleId res
如何知道客户端是否已在套接字中终止

假设写完这段代码后我有一个已连接的套接字 if sd accept socket d struct sockaddr client addr alen lt 0 perror accept failed n exit 1 我如何在服务器端
使用 jsdom 加载 ajax 应用程序

我正在寻找一种解决方案来在服务器上引导客户端应用程序用 Backbone js 编写以便我可以为爬虫和非 js 消费者提供正确的内容我一直在尝试使用 jsdom 和 Node js 来引导应用程序并且可以加载基本模板内容但应用程序
Sonarqube 6.7x 的安全插件

我们正在使用 sonarqube 我们喜欢它的工作方式我们正在尝试扩展 sonarqube 以增强安全性我尝试为sonarqube 6 x找到一些安全插件来检测Java语言的漏洞但我找不到任何插件我想知道是否有任何插件可以查找 so
如何检查麦克风是否可用于录音

我正在开发一个 WPF 应用程序需要录制用户的音频消息我按照代码here http channel9 msdn com coding4fun articles NET Voice Recorder并且它工作正常现在的问题是如果它是台
如何比较两个 OrderedDict 字典？

如何比较两个 OrderedDict 字典我的结构如下 dict a OrderedDict 1 4 2 5 3 3 4 5 5 4 6 4 7 4 8 3 9 4 dict b OrderedDict 1 4 2 2 3 1 4 4 5
在音频分析中绘制频谱图

我正在研究使用神经网络的语音识别为此我需要获取这些训练音频文件 wav 的频谱图如何在 python 中获取这些频谱图有很多方法可以做到这一点最简单的方法是查看中提出的方法关于 Kaggle 竞赛TensorFlow 语音识别挑战

在音频分析中绘制频谱图

在音频分析中绘制频谱图 的相关文章

随机推荐

热门标签

在音频分析中绘制频谱图的相关文章