如何在 OpenSMILE 中创建自定义配置文件

2024-01-02

我正在尝试使用 OpenSMILE 从音频样本中提取一些功能，但我意识到设置配置文件是多么困难。

该文档不是很有帮助。我能做的最好的事情就是运行一些提供的示例配置文件，查看结果，然后进入配置文件并尝试确定指定功能的位置。这是我所做的：

我使用了 INTERSPEECH 2010 Paralinguistic Challenge (IS10_paraling.conf) 中使用的默认功能集。

我在一个示例音频文件上运行了它。

我看了看结果。然后我深入阅读配置文件，试图找出指定该功能的位置。

这是一个小降价表，显示了我的探索结果：

| Feature generated | instruction in the conf file                            |
|-------------------|---------------------------------------------------------|
| pcm_loudness      | I see: 'loudness=1'                                     |
| mfcc              | I see a section: [mfcc:cMfcc]                           |
| lspFreq           | no matches for the text 'lspFreq' anywhere              |
| F0finEnv          | I seeF0finalEnv = 1 under [pitchSmooth:cPitchSmoother]  |

我看到的是 4 个不同的功能，全部由配置文件中的不同指令生成。好吧，对于其中之一，我在配置文件中没有找到任何令人不安的指令。由于没有模式或直观的语法或明显的系统，我不知道如何最终弄清楚如何指定我想要生成的自己的功能。

没有教程，没有 YouTube 视频，没有 StackOverflow 问题，也没有博客文章谈论如何做到这一点。这确实令人惊讶，因为这显然是使用 OpenSMILE 的重要部分。

如果有人发现这个，请告诉我如何创建 OpenSMILE 的自定义配置文件？谢谢！

感谢您对 openSMILE 的兴趣以及您渴望构建自己的配置文件。

科学界的大多数用户实际上使用 openSMILE 作为基线功能集的预定义配置文件，在 2.3 版本中使用起来更加灵活（更多命令行选项可以输出到不同的文件格式等）。

我承认所提供的文档并不那么好。然而，openSMILE 是一个非常复杂的软件，具有很多功能，目前只有最重要的部分有详细的文档记录。

最好的起点是阅读 openSMILE 书籍和 SIG'MM 教程，所有参考文献均位于http://opensmile.audeering.com/ http://opensmile.audeering.com/。它包含有关如何编写配置文件的部分。下一个重要元素是二进制文件的在线帮助：

微笑提取物-L列出可用的组件
SMILExtract -H cComponentName列出给定组件支持的所有选项（以及它可以提取的功能）以及每个选项的简短描述
SMILExtract -configDflt cComponentName为您提供组件的模板配置部分，其中列出了所有选项并设置了默认值

由于 openSMILE 的架构以所有音频功能的增量处理为中心，因此（至少目前还没有）没有简单的语法来定义您想要的功能。相反，您可以通过添加组件来定义处理链：

数据源将读取数据（例如，从音频文件、csv 文件或麦克风），
数据处理器将在各个步骤中进行信号处理和特征提取（加窗、窗函数、FFT、幅度、梅尔谱、倒谱系数 (MFCC)，例如用于提取 MFCC）；每个步骤都有一个数据处理器。
数据接收器将数据写入输出文件或将结果发送到服务器等。

您可以通过“reader.dmLevel”和“writer.dmLevel”选项连接组件。它们定义了组件用来交换数据的数据存储级别的名称。只有一个组件可以写入一个级别，即 writer.dmLevel=levelName 定义该级别并且只能出现一次。通过设置 reader.dmLevel=levelName，多个组件可以从此级别读取。

然后，在每个组件中设置选项以启用功能计算并为此设置参数。回答有关 lspFreq 的问题：这可能在 cLsp 组件中默认启用，因此您看不到它的显式选项。对于 openSMILE 的未来版本，将并且应该更严格地遵循明确设置所有选项的做法。

输出中的功能名称将由组件自动定义。通常每个组件都会添加名称的一部分，因此您可以从名称推断出完整的处理链。选项 nameAppend 和 copyInputName（可用于大多数数据处理器）控制此行为，尽管某些组件可能会在内部覆盖它们或稍微更改行为。

查看每个数据内存级别的名称（和其他信息），包括例如如果要在配置中生成某个组件，您可以在 componentInstances:cComponentManager 部分中设置选项“printLevelStats=5”。

由于 openSMILE 中的 everyhting 都是为实时增量处理而构建的，因此每个数据内存级别都有一个缓冲区，默认情况下是一个环形缓冲区，以便在应用程序运行较长时间时保持内存占用恒定。有时您可能想要总结给定长度的窗口上的特征（例如使用 cFunctionals 组件）。在这种情况下，您必须确保该组件的输入级别的缓冲区大小足以容纳整个窗口。您可以通过以下选项执行此操作：

writer.levelconf.isRb = 1/0 : 将缓冲区类型设置为ringbuffer (1) 或固定大小缓冲区
writer.levelconf.growDyn = 1/0 ：将缓冲区设置为在写入更多数据时动态增长 (1)
writer.levelconf.nT = 设置缓冲区的大小（以帧为单位）。或者，您可以使用 bufferSizeSec=x 设置大小（以秒为单位）并自动转换为帧。

在大多数情况下，尺寸将自动正确设置。后续级别也继承先前级别的配置。例外情况是，当您将 cFunctionals 组件设置为读取完整输入（例如，仅在文件末尾生成一个特征）时，您必须在函数组件读取的级别上使用 GrowthDyn=1，或者如果您使用变量成帧模式（见下文）。

cFunctionals 组件提供帧模式、帧大小、 and 帧步长选项。其中frameMode可以是完整*（在输入/文件末尾生成一个向量），**列表（指定框架列表），var（接收消息，例如从 cTurnDetector 组件接收动态定义帧的消息），或者fix（固定长度窗口）。仅在以下情况下fix选项frameSize设置该窗口的大小，并且帧步长窗口向前移动的速率。的情况下fix输入级别的缓冲区大小会自动正确设置，在其他情况下您必须手动设置。

我希望这可以帮助您入门！对于每一个新的 openSMILE 版本，我们 audEERING 都在尝试更好地记录事物并通过各种组件统一事物。

我们也欢迎来自社区的贡献（例如，任何愿意编写图形配置文件编辑器的人，您可以在其中拖放组件并以图形方式连接它们？;）） - 尽管我们知道更多的文档将使这变得更容易。在那之前，您始终必须阅读源代码；）

干杯，弗洛里安

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 OpenSMILE 中创建自定义配置文件的相关文章

如何在 iPad 上使用 HTML5/Javascript 合成音频

有没有人有工作示例代码可以在 iPad 上的 Mobile Safari 上使用 HTML5 Javascript 合成并播放音频我在网上找到了一些基于 javascript 的声音合成示例但它们似乎都只能在 Firefox 中使
使用 C 创建立体声正弦波

我正在尝试用 C 创建立体声正弦 WAV 并且可能有不同的可能是空白的左声道和右声道使用此函数为每个通道生成一个音调 int16 t create tone float frequency float amplitude float
Android 从 C++ 端播放原始音频

我需要能够在 Android 系统的 C 端以自定义文件格式传输音频我正在致力于移植自定义媒体播放器并且需要能够打开自定义文件并从中传输音频这很重要因为我认为从性能角度来看将整个播放器移植到 JAVA 是不可行的并且通过 JNI
在 Qt 中播放通知（频率 x）声音 - 最简单的方法？

Qt 5 1 或更高版本我需要播放频率为 x 的通知声音 n 毫秒如果我能像这样组合音调那就太好了 1000Hz 持续 2 秒然后 3000Hz 持续 1 秒最简单的方法是使用文件 WAV MP3 例如如此处所述如何用Qt播放声音
使用 Android 播放任意音调

有没有办法让Android发出任意频率的声音意思是我不想预先录制声音文件我环顾四周音调发生器 http developer android com reference android media ToneGenerator html
HTML5

我想在随机位置开始和停止 HTML5 播放并具有淡入和淡出周期以平滑聆听体验为此存在什么样的机制使用 setTimeout 手动增加音量 jQuery 的方式 audio animate volume newVolume 1000
Clip 在 Java 中播放 WAV 文件时出现严重延迟

我编写了一段代码来读取 WAV 文件大小约为 80 mb 并播放该文件问题是声音播放效果很差极度滞后你能告诉我有什么问题吗这是我的代码我称之为doPlayJframe 构造函数内的函数 private void doPlay f
使用 VBScript 切换当前活动声音设备？

我想在连接到我的计算机 Windows 7 32 位的两个音频设备之间切换我看了一下question https stackoverflow com questions 35709 change active sound card on
如何将 MP3 音频文件读入 numpy 数组/将 numpy 数组保存到 MP3？

有没有办法从 MP3 音频文件中读取写入 MP3 音频文件numpy具有类似 API 的数组scipy io wavfile read https docs scipy org doc scipy 0 14 0 reference gen
在音频文件中查找音频样本（频谱图已存在）

我正在努力实现以下目标使用 Skype 拨打我的邮箱有效输入密码并告诉邮箱我要录制新的欢迎信息有效现在我的邮箱告诉我在嘟嘟声后录制新的欢迎消息我想等待蜂鸣声然后播放新消息不起作用我如何尝试实现最后一点使用 FFT 和滑动
iPhone 应用程序需要 AAC 许可证吗？

AAC 是一种音频编解码器 AAC 旨在成为 MP3 格式的后继者在相似的比特率下 AAC 通常可以实现比 MP3 更好的音质维基百科上的 AAC http en wikipedia org wiki Advanced Audio Co
使用 C# 将多个音频样本混合到单个文件中

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个能够创建音频文件 mp3 或 wav 的库 NAudio http www codeple
c# AudioFingerprinting 和局部敏感哈希

我之前发现过类似的帖子但没有真正回答这个问题在我的指纹识别中我生成了一个包含 5 个整数的记录集例如 33 42 88 121 194 这些对应于特定音乐样本的最高幅度的频率例如对于 30ms 的音频样本我有以下频率的桶 0
Java Sound可以用来控制系统音量吗？

Java 声音优惠FloatControl各种声音线路功能的实例以及MASTER GAIN http docs oracle com javase 7 docs api javax sound sampled FloatControl T
播放没有音频标签的音频

是否可以在没有音频标签的情况下仅使用 javascript 播放音频我通过 tinyMce 编辑器注入脚本因为我无权访问网站的后端并且它不支持客户端的音频标签她只想要当您将鼠标悬停在图像上时发出简单的声音我已经完成了所有设置但是
Java 原始音频输出

只是想知道Java中是否有像模块这样的库皮奥迪埃 http pyaudiere org 在 Python 中这仅允许您创建音调并播放它们如以下示例 Python 代码 device audiere open device tone de
Javascript 制作音频 blob

我正在测试 html 音频标签我想制作音频 blob url 就像 youtube 或 vimeo 那样并将其添加到 src 开始播放音频我一直在测试new Blob and URL createObjectURL 但我不知道如何使用
如何在C#中剪切、编辑和合并OGG文件？

我有一个 ogg vorbis 文件我必须用它执行两个操作将文件的一部分从一个位置剪切到另一个位置将另一个文件与现有文件合并如何在 C 中执行这两个操作你可以使用 libzplay 来做到这一点http libzplay sour
声音在模拟器中工作，而不是在真实 iPhone 中工作

有几短音效播放的样本在模拟器中很好但在真正的 iPhone 中根本不行3GS 以下是 Apple SysSound 示例中的代码 CFBundleRef mb CFBundleGetMainBundle CFURLRef soundFil
用 Java 捕获扬声器输出

使用Java可以捕获扬声器输出吗此输出不是由我的程序生成的而是由其他正在运行的应用程序生成的这可以用 Java 完成还是我需要求助于 C C 我有一个基于 Java 的应用程序使用过的爪哇声音 https stackoverflow

随机推荐

SQL Server 2008 上 varbinary(max) 文件流的长度

有没有一些有效的方法来获取 varbinary max filestream 列中的数据长度我只找到了转换为 varchar 然后调用 LEN 函数的示例 SELECT length DATALENGTH Name Name FROM P
如何在价格中添加尾随零？

我有一个返回产品价格的脚本但是价格可能包含也可能不包含尾随零所以有时我可能会258 22其他时候我可能有258 2 在后一种情况下我需要添加尾随零我该怎么做呢你可以使用javascripttoFixed方法 source htt
如何在fragment中设置setContentView

我正在尝试在片段中调用库但不知道如何在片段中设置它我已在主活动中完成它但在片段中设置 setContentView 时出现错误编译依赖 compile com github medyo android about page 1 0 2
Android Studio 图像资源启动器图标背景颜色

我的应用程序有一个 png 徽标它没有背景当我将其作为图像资源添加到 android studio 时我被迫有背景十六进制字段不接受 8 位颜色代码仅接受 6 位有没有办法让背景不可见要使背景透明请设置shape as No
MotionLayout 儿童拦截触摸事件的问题

我的主布局中有一个根容器的 MotionLayout 里面还有其他的景色其中之一是框架布局包含一个片段该片段是一个页面由 NestedScrollView 等组成 MotionLayout 具有仅水平滑动的 OnSwipe 而 Ne
具有可变函数参数的 C++ 多态性

我正在与您分享一个使用可变参数函数参数的类遇到的问题它是下面代码中所示的 Thread 类它是 std thread 的包装器以便使用函数模式我想在这个函数中使用多态性将 Thread 类继承到一个新类 Functor 中但是
将 Excel 电子表格导入 Access - [hh]:mm:ss 的格式问题

我需要将 Excel 电子表格导入 Microsoft Access 我有一个格式为 h mm ss 的列当我使用 Access 导入它时我已指定该列采用日期时间格式但它显示不正确例如在 Excel 中它会显示 452 32
git 远程名称中哪些字符是非法的？

git 远程名称中哪些字符是非法的我在 git 文档中没有找到它我在文档中也没有找到任何内容那么我们就来看看源码吧当您尝试添加具有无效名称的遥控器或将遥控器重命名为无效名称时您将收到一条错误消息例如致命 foo bar 不是有
如何向 D3.js 图表添加固定范围垂直线

我正在尝试在现有折线图上添加一条垂直线我的数据如下所示 PC 列是计算出的百分比图表上的垂直线应从 0 延伸到 100 var data Month 2014 06 PC 38 items 72 Month 2014 07 PC 33
如何动态访问 strings.xml 中的值？

我想做的是从中获取特定文本strings xml动态地我认为这将涉及动态访问对象变量将会有一个类似的函数 public void getDynamicString int level text setText R string leve
如何解释 jag 中的某些语法（n.adapt、update..）？

我对 jag 中的以下语法感到非常困惑例如 n iter 100 000 thin 100 n adapt 100 update model 1000 progress bar none 目前我认为 n adapt 100意味着您将前 1
如何链接到 /usr/local/lib 上的 libc++？

我试图提供 L usr local lib tried nostdinc 尝试设置DYLD LIBRARY PATH and DYLD FALLBACK LIBRARY PATH but otool总是给我 otool L sample s
作为服务运行时，TFS 构建代理无法连接到 TFS 2017 中的 HTTPS git

我们在服务器上使用内部证书我已按照以下步骤操作 https blogs msdn microsoft com tfssetup 2016 12 19 error ssl certificate problem unable to get
如何在 CloudFormation 模板中创建一些随机或唯一值？

有没有办法在 CloudFormation 模板中创建某种随机或唯一值为什么我需要这个在我们的模板中我们有许多自定义命名的资源例如AWS AutoScaling LaunchConfiguration与指定的LaunchConfig
P 值、显着性水平和假设

我对 p 值的概念感到困惑一般来说如果 p 值大于 alpha 通常为 0 05 我们就无法拒绝原假设如果 p 值小于 alpha 我们就拒绝原假设据我了解如果 p 值大于 alpha 则两组之间的差异只是来自采样误差或偶然到目
在 Go 中实现 Ruby 风格的笛卡尔积

我想要得到的笛卡尔积a b c d a a1 b b1 b2 c c1 c2 c3 d d1 这是 Ruby 代码 e b c d print a product e 输出是 a1 b1 c1 d1 a1 b1 c2 d1 a1 b1 c3
相当于 vb.net 中的 vb6.Format 函数，无需使用 Microsoft.Visualbasic.Compatibility.dll [重复]

这个问题在这里已经有答案了可能的重复有没有办法以编程方式将 VB6 格式字符串转换为 NET 格式字符串 https stackoverflow com questions 4072490 is there a way to progr
Microsoft.NET.Sdk 和 Microsoft.NET.Sdk.Web 之间有什么区别

我有一个包含两个主机项目的解决方案一个是Web Host https learn microsoft com en us aspnet core fundamentals host web host view aspnetcore 2 1
我的教义真的很慢。简单查询，一秒出结果

这是我的设置 Windows Server 2008 R2mysql 5 1 562PHP 5 3 2教义1 2 任何人都知道为什么我的查询需要大约一秒钟才能执行一个简单的查询 echo date Y m d H i s time micr
如何在 OpenSMILE 中创建自定义配置文件

我正在尝试使用 OpenSMILE 从音频样本中提取一些功能但我意识到设置配置文件是多么困难该文档不是很有帮助我能做的最好的事情就是运行一些提供的示例配置文件查看结果然后进入配置文件并尝试确定指定功能的位置这是我所做的我使用了

如何在 OpenSMILE 中创建自定义配置文件

如何在 OpenSMILE 中创建自定义配置文件 的相关文章

随机推荐

热门标签

如何在 OpenSMILE 中创建自定义配置文件的相关文章