WebRTC实时语音算法工程实现

语音方向总结-给新人

一张图总结下语音方向算法以及开源工程给需要找工作以及想深入研究方向同学一张思维图对应的职业发展路径如下

WebRTC实时语音算法工程实现 Opus编码器原理和工程实现详解 实时音视频

语音增强技术

我的书淘宝购买链接当当购买链接京东购买链接在人机交互的场景中麦克风采集到的人声不可避免的混杂外界噪声可以通过信号处理的方法在处理前将其去除以获得纯净的语音信号这一过程称为降噪或者语音增强从麦克风数量上分为单麦克降噪多

WebRTC实时语音算法工程实现 算法 语音增强噪声

麦克风阵列波束形成

我的书淘宝购买链接当当购买链接京东购买链接波束形成 beamforming 体现的是声源信号的空域选择性许多传统波束形成方法具有线性处理结构波束形成需要考虑三个方面 1 麦克风阵列个数 2 性能 3 鲁棒性在麦克风较少时波束

WebRTC实时语音算法工程实现 波束形成

语音识别-信号处理篇

我的书淘宝购买链接当当购买链接京东购买链接连接前端和后端的语音识别 ASR 的关键是给到后端根据特征判定词句系统的特征类型和特征质量对于传统的语音识别系统常采用MFCC mel frequency ceptral coeff

WebRTC实时语音算法工程实现 语音识别 前端

Kaldi知识点汇集

我的书淘宝购买链接当当购买链接京东购买链接特征提取 MFCC compute mfcc feats cc Create MFCC feature files Usage compute mfcc feats options

WebRTC实时语音算法工程实现 kaldi声学模型 kaldi知识点

Kaldi声学模型训练

我的书淘宝购买链接当当购买链接京东购买链接支持标准的基于ML训练的模型线性变换如LDA HLDA MLLT STC 基于fMLLR MLLR的说话人自适应支持混合系统支持SGMMs 基于fMLLR的说话人识别模型代码可以

WebRTC实时语音算法工程实现 Kaldi 声学模型 GMM AM

tensorflow 模型文件

我的书购买链接京东购买链接淘宝购买链接当当购买链接 tensorflow生成的模型文件主要有三个 meta index和 data 分成三个文件的原因是tensorflow将计算图结构和变量值存储在不同的文件里 meta文件描述的是

WebRTC实时语音算法工程实现

语音编码之压缩

我的书购买链接京东购买链接淘宝购买链接当当购买链接这本书里叙述了SILK和Opus语音编解码器这里简单的串接编解码的核心知识点 LPC LPC Linear predictive coding 在音频和语音处理领域常用于表示压缩

WebRTC实时语音算法工程实现

seq2seq

我的书淘宝购买链接当当购买链接京东购买链接 seq2seq是通用编码器解码器框架 encoder decoder framework 可以用在机器翻译文本摘要会话建模图像描述源码 https github com googl

WebRTC实时语音算法工程实现 Seq2Seq tensorflow RNN

模拟域频率与数字域频率关系

我的书淘宝购买链接当当购买链接京东购买链接数字频率于模拟频率互相转化的公式如下 2 f

WebRTC实时语音算法工程实现 信号处理 频率

语音自适应回声消除（AEC）算法

我的书淘宝购买链接当当购买链接京东购买链接自适应回声消除算法欢迎留言交流 AEC算法早期用在Voip 电话这些场景中自从智能设备诞生后智能语音设备也要消除自身的音源这些音源包括音乐或者TTS机器合成声音本文基于开源算法阐述

WebRTC实时语音算法工程实现 智能语音 算法 MATLAB

tensorflow 移植到android平台

我的书淘宝购买链接当当购买链接京东购买链接本文基于 https github com MindorksOpenSource AndroidTensorFlowMachineLearningExample 下载和安装jdk ndk和s

WebRTC实时语音算法工程实现 tensorflow Android

模型推理那些事

模型推理那些事目前主流的深度学习框架有目前越来越多的深度学习框架工具集以及定制化硬件使得构建部署和跨框架管理深度学习越来越复杂常用的深度学习框架有TensorFlow Pytorch MXNet和CNTK 因为训练最为耗时所以常使

WebRTC实时语音算法工程实现

EM算法

我的书淘宝购买链接当当购买链接京东购买链接前一篇文章提到了基于统计模型的VAD决策方法在看 WebRTC之VAD算法语音增强系列博文时其计算概率使用的高斯参数是给定的那么问题来了 1 webrtc中给定的参数是如何得到的

WebRTC实时语音算法工程实现 算法 EM 语音识别

音频应用处理器性能benchmark

我的书购买链接京东购买链接淘宝购买链接当当购买链接处理器类别 1 Analog Devices SHARC Blackfin SigmaDSP 2 TI c55 c67x c66x 3 ARM cortex M4 M7 corte

WebRTC实时语音算法工程实现

WebRTC之VAD算法

我的书购买链接京东购买链接淘宝购买链接当当购买链接 VAD Voice Activity Detection 算法的作用是检测语音在远场语音交互场景中 VAD面临着两个难题 1 可以成功检测到最低能量的语音灵敏度 2 如何在多噪

WebRTC实时语音算法工程实现 webrtc 算法 VAD

笔记

零散个人笔记书籍已出版完整版淘宝京东当当有售 1 tensorflow源码完整下载方法 git clone recurse submodules https github com tensorflow tensorflow git

WebRTC实时语音算法工程实现 语音识别