Java：如何获取当前音频输入的频率？

2024-01-10

我想分析麦克风输入的当前频率，以使 LED 与播放的音乐同步。我知道如何从麦克风捕获声音，但我不知道 FFT，这是我在寻找获取频率的解决方案时经常看到的。

我想测试一下某个频率的当前音量是否大于设定值。代码应该看起来像这样：

 if(frequency > value) { 
   LEDs on
 else {
   LEDs off
 }

我的问题是如何用Java实现FFT。为了更好地理解，here https://www.youtube.com/watch?v=u-8MUwiBIQ4是 YouTube 视频的链接，它很好地展示了我想要实现的目标。

整个代码：

public class Music {

    static AudioFormat format;
    static DataLine.Info info;

    public static void input() {
        format = new AudioFormat(AudioFormat.Encoding.PCM_SIGNED, 44100, 16, 2, 4, 44100, false);

        try {
            info = new DataLine.Info(TargetDataLine.class, format);
            final TargetDataLine targetLine = (TargetDataLine) AudioSystem.getLine(info);
            targetLine.open();

            AudioInputStream audioStream = new AudioInputStream(targetLine);

            byte[] buf = new byte[256]

            Thread targetThread = new Thread() {
                public void run() {
                    targetLine.start();
                    try {
                        audioStream.read(buf);
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            };

            targetThread.start();
    } catch (LineUnavailableException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }

}

Edit:我尝试使用 MediaPlayer 的 JavaFX AudioSpectrumListener，只要我使用.mp3文件。问题是，我必须使用一个字节数组来存储麦克风输入。我针对这个问题问了另一个问题here https://stackoverflow.com/questions/54021239/java-how-to-use-microphone-input-as-input-for-the-javafx-media-player.

使用JavaFFT班级来自here https://github.com/hendriks73/jipes/blob/master/src/main/java/com/tagtraum/jipes/math/FFTFactory.java，你可以这样做：

import javax.sound.sampled.*;

public class AudioLED {

    private static final float NORMALIZATION_FACTOR_2_BYTES = Short.MAX_VALUE + 1.0f;

    public static void main(final String[] args) throws Exception {
        // use only 1 channel, to make this easier
        final AudioFormat format = new AudioFormat(AudioFormat.Encoding.PCM_SIGNED, 44100, 16, 1, 2, 44100, false);
        final DataLine.Info info = new DataLine.Info(TargetDataLine.class, format);
        final TargetDataLine targetLine = (TargetDataLine) AudioSystem.getLine(info);
        targetLine.open();
        targetLine.start();
        final AudioInputStream audioStream = new AudioInputStream(targetLine);

        final byte[] buf = new byte[256]; // <--- increase this for higher frequency resolution
        final int numberOfSamples = buf.length / format.getFrameSize();
        final JavaFFT fft = new JavaFFT(numberOfSamples);
        while (true) {
            // in real impl, don't just ignore how many bytes you read
            audioStream.read(buf);
            // the stream represents each sample as two bytes -> decode
            final float[] samples = decode(buf, format);
            final float[][] transformed = fft.transform(samples);
            final float[] realPart = transformed[0];
            final float[] imaginaryPart = transformed[1];
            final double[] magnitudes = toMagnitudes(realPart, imaginaryPart);

            // do something with magnitudes...
        }
    }

    private static float[] decode(final byte[] buf, final AudioFormat format) {
        final float[] fbuf = new float[buf.length / format.getFrameSize()];
        for (int pos = 0; pos < buf.length; pos += format.getFrameSize()) {
            final int sample = format.isBigEndian()
                    ? byteToIntBigEndian(buf, pos, format.getFrameSize())
                    : byteToIntLittleEndian(buf, pos, format.getFrameSize());
            // normalize to [0,1] (not strictly necessary, but makes things easier)
            fbuf[pos / format.getFrameSize()] = sample / NORMALIZATION_FACTOR_2_BYTES;
        }
        return fbuf;
    }

    private static double[] toMagnitudes(final float[] realPart, final float[] imaginaryPart) {
        final double[] powers = new double[realPart.length / 2];
        for (int i = 0; i < powers.length; i++) {
            powers[i] = Math.sqrt(realPart[i] * realPart[i] + imaginaryPart[i] * imaginaryPart[i]);
        }
        return powers;
    }

    private static int byteToIntLittleEndian(final byte[] buf, final int offset, final int bytesPerSample) {
        int sample = 0;
        for (int byteIndex = 0; byteIndex < bytesPerSample; byteIndex++) {
            final int aByte = buf[offset + byteIndex] & 0xff;
            sample += aByte << 8 * (byteIndex);
        }
        return sample;
    }

    private static int byteToIntBigEndian(final byte[] buf, final int offset, final int bytesPerSample) {
        int sample = 0;
        for (int byteIndex = 0; byteIndex < bytesPerSample; byteIndex++) {
            final int aByte = buf[offset + byteIndex] & 0xff;
            sample += aByte << (8 * (bytesPerSample - byteIndex - 1));
        }
        return sample;
    }

}

傅里叶变换有什么作用？

简而言之：PCM 信号在时域中对音频进行编码，而傅立叶变换信号在频域中对音频进行编码。这是什么意思？

在 PCM 中，每个值都编码一个幅度。您可以将其想象为以一定幅度来回摆动的扬声器薄膜。每秒对扬声器振膜的位置进行一定时间的采样（采样率）。在您的示例中，采样率为 44100 Hz，即每秒 44100 次。这是 CD 品质音频的典型速率。就您的目的而言，您可能不需要这么高的费率。

要从时域转换到频域，您需要获取一定数量的样本（假设N=1024）并使用快速傅里叶变换（FFT）对其进行变换。在有关傅里叶变换的入门读物中，您会看到很多有关连续情况的信息，但您需要注意的是离散情况（也称为discrete傅里叶变换，DTFT https://en.wikipedia.org/wiki/Discrete-time_Fourier_transform），因为我们处理的是数字信号，而不是模拟信号。

那么当你转变时会发生什么1024使用 DTFT 的样本（使用其快速实现 FFT）？通常，样本是real数字，不是complex数字。但DTFT的输出是complex。这就是为什么通常从一个输入数组获得两个输出数组的原因。一个数组用于real一部分和一个为假想部分。它们一起形成一组复数。该数组代表输入样本的频谱。频谱很复杂，因为它必须编码两个方面：幅度（幅度）和相位。想象一个具有振幅的正弦波1。正如您可能还记得，从数学角度来看，正弦波穿过原点(0, 0)，而余弦波在 y 轴处切割(0, 1)。除了这种转变之外，两个波的振幅和形状都相同。这种转变称为phase。在您的上下文中，我们不关心相位，而只关心幅度/幅度，但您获得的复数对两者进行编码。转换这些复数之一(r, i)对于一个简单的幅度值（特定频率下的响度），您只需计算m=sqrt(r*r+i*i)。结果总是积极的。理解其工作原理和原理的一个简单方法是想象一个笛卡尔平面。对待(r,i)作为该平面上的向量。因为勾股定理 https://en.wikipedia.org/wiki/Pythagorean_theorem该向量距原点的长度只是m=sqrt(r*r+i*i).

现在我们有了震级。但它们与频率有何关系？每个幅度值对应于某个（线性间隔的）频率。首先要了解的是，FFT 的输出是对称的（在中点镜像）。所以对1024复数，只有第一个512我们感兴趣。涵盖哪些频率？因为奈奎斯特-香农采样定理 https://en.wikipedia.org/wiki/Nyquist%E2%80%93Shannon_sampling_theorem采样的信号SR=44100 Hz不能包含大于频率的信息F=SR/2=22050 Hz（您可能会意识到这是人类听觉的上限，这就是为什么选择它用于 CD）。所以第一个512从 FFT 获得的复数值1024采样信号的样本44100 Hz覆盖频率0 Hz - 22050 Hz。每个所谓的频率仓涵盖2F/N = SR/N = 22050/512 Hz = 43 Hz（bin 的带宽）。

所以这个垃圾箱11025 Hz就在索引处512/2=256。幅度可能为m[256].

要使其在您的应用程序中发挥作用，您还需要了解一件事：1024的样本44100 Hz signal覆盖的时间很短，即 23ms。在这么短的时间内，您会看到突然的峰值。最好将其中的多个汇总起来1024在阈值化之前采样到一个值。或者，您也可以使用更长的 DTFT，例如1024*64然而，我建议不要将 DTFT 做得太长，因为它会造成很大的计算负担。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java：如何获取当前音频输入的频率？的相关文章

Amazon Elasticache Redis 集群 - 无法获取端点

我需要获取 Amazon Elasticache 中 Redis 集群的终端节点以下代码适用于 Memcached 集群但不适用于 Redis import com amazonaws auth AWSCredentials impor
在此代码中，Runnable 未实例化。为什么？

Runnable cannot instantiate public class Thread4 public static void main String args Thread t1 new Thread new Runnable R
ListView：防止视图回收

我有一个使用回收视图的 ListView 我试图阻止视图被回收所以我使用 setHasTransientState android support v4 view ViewCompatJB setHasTransientState Vie
Android CursorAdapter、ListView 和后台线程

我一直在开发的这个应用程序有包含数兆字节数据的数据库可供筛选许多活动只是列表视图通过数据库中的各个级别的数据下降直到到达文档即从数据库中提取并显示在手机上的 HTML 我遇到的问题是其中一些活动需要能够通过捕获击键并重新运行带有
Spring @Validated 在服务层

Hej 我想使用 Validated group Foo class 在执行方法之前验证参数的注释如下所示 public void doFoo Foo Validated groups Foo class foo 当我将此方法放入 Spr
探索java图像处理的好资源[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我是图像处理领域的新手请推荐一些好的资源书籍和网络链接来学习 Java 中的图像处理最适合隐写术分析适合初学者和高级水平我看过
无法将 INode 类型值分配给类型变量。为什么？

我想知道为什么以下代码无法工作 public static
如何停止使用扫描仪从标准输入读取多行？

我正在做一个 JAVA 作业应该处理多行输入指令显示输入是从标准输入读取的给出了示例输入的示例 one 1 two 2 three 3 我不明白上面的示例输入从标准输入读取是什么意思这是我编写的一个测试程序它可以消除我的困惑
Java - toString 到 Color

我一整天都在努力解决这个问题基本上我做了一个 for 循环将条目添加到数组列表中其中一项是颜色变量我已经用过random nextInt为颜色构造函数的红色绿色和蓝色部分创建新值我还设置了一个toString方法这样我就可
为本地@ExceptionHandler编写JUnit测试

我有以下控制器 class Controller ResponseStatus HttpStatus OK RequestMapping value verifyCert method RequestMethod GET public vo
欧拉项目 45

我还不是一名熟练的程序员但我认为这是一个有趣的问题我想我应该尝试一下三角形五边形六边形数字由以下生成公式三角形 T n n n 1 2 1 3 6 10 15 五边形 P n n 3n 1 2 1 5 12 22 35 六角
使用 equals 方法比较两个对象，Java

我有一个对象数组我想将它们与目标对象进行比较我想返回与目标对象完全匹配的对象的数量这是我的计数方法 public int countMatchingGhosts Ghost target int count 0 for int i 0
如何以编程方式播放 16 位 pcm 数组 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个包含 16 位 pcm 值的短数组我希望能够在不添加任何标题也不将任何文件保存到内存的情况下播放它我知道我可能需要一个提供
JPA 的 Hibernate 查询提示

我一直在尝试为所有可以通过设置的提示找到一个明确的资源Query setHint String Object JPA 中的方法调用但我一无所获有人知道一个好的参考吗 See 3 4 1 7 查询提示 http docs jboss or
如何从 Trie 中检索给定长度的随机单词

我有一个简单的 Trie 用来存储大约 80k 长度为 2 15 的单词它非常适合检查字符串是否是单词但是现在我需要一种获取给定长度的随机单词的方法换句话说我需要 getRandomWord 5 来返回 5 个字母的单词所有 5
Java 中通用方法参数的 getClass()

以下 Java 方法无法编译
Javac 版本 1.7 无法为目标 1.7 构建

我试图在 Linux Mint 系统上使用 Sun Java JDK 1 7 0 17 编译 Java 代码但遇到了这个问题 javac version target 1 7 javac 1 7 0 17 javac invalid ta
一个类中有多个具有相同参数类型的方法

我知道至少已经有了关于这个主题的一个问题 https stackoverflow com questions 5561436 can two java methods have same name with different retur
如何让JComboBox中的内容居中显示？

目前我有这个JComboBox 我怎样才能将其中的内容居中 String strs new String 15158133110 15158133124 15158133458 JComboBox com new JComboBox str
Swing：创建可拖动组件...？

我在网上搜索了可拖动 Swing 组件的示例但我发现示例不完整或不起作用我需要的是一个摇摆组件那可以是dragged通过鼠标在另一个组件内被拖拽的时候应该已经改变它的位置而不仅仅是跳到目的地我很欣赏无需非标准 API 即

随机推荐

SSIS 导入 Excel 日期时出错（截断错误）

我很抱歉发布了一个看似非常简单的问题但我找不到答案而且我浪费了几天此时不仅仅是几个小时我对 SSIS 还很陌生它只是让我感到不舒服背景非常简单的 SSIS 包用于将 Excel 工作表导入 SQL Server 中的临时表
使用Python获取视频属性，无需调用外部软件

更新是的有可能现在大约 20 个月后了请参阅下面的更新3 更新这真的不可能吗我能找到的只是调用 FFmpeg 或其他软件的变体我当前的解决方案如下所示但我真正想要的可移植性是一个仅 Python 的解决方案不需要用户安装
如何在Python ElementTree中插入子子元素

我的 XML
单个 MSI 安装正确的 32 或 64 位 C# 应用程序

我有一个为 x86 32 位和 x64 64 位平台构建的 C 应用程序我的构建系统当前输出两个 MSI 安装程序每个平台一个为了以防万一我的 C 应用程序包含一个 Windows 任务栏工具栏这意味着安装的 DLL 必须由
CoInitializeEx 用于 boost::test::unit_test

有一天我决定需要了解 Windows 平台上的 C 测试驱动开发使用 Visual Studio 2010 Premium 在决定尝试 boost 的单元测试框架之前我环顾四周我应该说我选择了 boostpro com 的版本如果
如何使用Python多进程apply_async获得精确的超时？

我正在使用多进程池并行运行一批作业我想给每项工作2秒的时间限制也就是说如果一项工作花费的时间超过 2 秒我想终止该工作并继续执行下一项工作这是我的代码 from multiprocessing import Pool Timeou
为模型创建通用 Save() 方法

我有一个相当简单的系统出于这个问题的目的基本上由三个部分组成模型存储库应用程序代码核心是模型让我们使用一个简单的例子 public class Person public string FirstName get set pu
如何正确关闭IPython Notebook？

如何正确关闭IPython Notebook 目前我只需关闭浏览器选项卡然后使用Ctrl C在终端中不幸的是两者都没有exit 也不滴答作响Kill kernel upon exit确实有帮助他们确实杀死了内核但不退出 iPyt
实体关系 - 弱实体能否作为“一”参与“一对多”关系

通过以下实体关系结构我很难弄清楚 LOAN 和 ITEM 实体之间的关系是否有效 LOAN 的弱实体使用部分键 loan dateLeant 以及来自 CUSTOMER 和 ITEM 的主键来形成 LOAN 主键然而 LOAN 与 IT
java执行linux命令

我试图从 java 代码执行 linux 命令 cat 但它不起作用 Runtime getRuntime exec cat home roman logs 它对于单文件的猫效果很好 Runtime getRuntime exec cat
HTTP POST 请求和带有 MIME 附件多部分/相关和 xop 的标头？

我正在尝试使用 eBay 的 FileTransfer API 上传批量数据交换调用为了做到这一点我必须将 xml 请求字符串发布到 eBay 服务器但 xml 请求包含一个
类型“Microsoft.SqlServer.Types.SqlGeography”同时存在于“Microsoft.SqlServer.Types.dll”和“Microsoft.SqlServer.Types.dll”中

在我的 Windows 类库由 MVC 网站使用中我安装了 NugetPackageMicrosoft SqlServer Types Spatial 现在使用 ado net 我尝试通过执行以下操作来读取该值 protected
Keras 功能模型提供高验证精度但预测不正确

我正在尝试使用 PASCAL VOC 2012 数据集上的 ImageNet 预训练权重对 VGG16 架构进行迁移学习 PASCAL VOC 是一个具有 20 个类别的多标签图像数据集因此我修改了内置的 VGG16 模型如下所示 de
一个简单的可重现示例，用于在 R 中的自定义函数中将参数传递给 data.table

我已经用谷歌搜索这个答案几个小时了很多人都问过类似的问题但我没有找到足够简单的问题或直接的答案这是我的方法假设我想做一个简单的分组data table library data table mtcars data table mtc
Java：给定日期的迭代

我在 Java 中有两个日期 Wed Jan 05 00 00 00 CET 2011 Sat Jan 15 23 59 59 CET 2011 现在我想迭代它们这样我每天都可以做一个System out println 我在控制台上输入
没有负值的 JSpinner

我正在 Netbeans 中构建一个小型应用程序我使用 JSpinner 组件来设置产品的数量如何将微调器设置为仅取正值 Netbeans 内是否有我可以设置的选择或方法JSpinner EXTRA spinner setModel n
如何在不再次拉取子存储库的情况下进行本地克隆？

我经常使用 Mercurial 在本地存储我的上游克隆然后在本地再次克隆以适应我的实际工作环境 cd clones hg clone ssh external repo example com some repo path foo cd
无法在初始渲染中找到参考

我刚刚在官方文档中读到第一次渲染时没有调用 componentDidUpdate 我想这可能就是为什么我的这个组件第一次渲染时 dom 没有被定义这是一个弹出模式当需要编辑页面时会弹出我还有其他方法可以解决这个问题吗 compone
将文件移动到新目录的批处理命令

我想编写一个批处理作业执行时将抓取所有文件C Test Log文件夹并将它们移至新目录C Test 这个新目录的名称为 Backup 名称为当前日期因此完成后日志文件夹应该为空所有文件现在都位于新文件夹中我知道我必须使用MOV
Java：如何获取当前音频输入的频率？

我想分析麦克风输入的当前频率以使 LED 与播放的音乐同步我知道如何从麦克风捕获声音但我不知道 FFT 这是我在寻找获取频率的解决方案时经常看到的我想测试一下某个频率的当前音量是否大于设定值代码应该看起来像这样 if freque

Java：如何获取当前音频输入的频率？

傅里叶变换有什么作用？

Java：如何获取当前音频输入的频率？ 的相关文章

随机推荐

热门标签

Java：如何获取当前音频输入的频率？的相关文章