Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
语音方向总结-给新人
一张图总结下语音方向 算法 以及开源工程 给需要找工作以及想深入研究方向同学一张思维图 对应的职业发展路径如下
WebRTC实时语音算法工程实现
Opus编码器原理和工程实现详解
实时音视频
语音增强技术
我的书 淘宝购买链接 当当购买链接 京东购买链接 在人机交互的场景中 麦克风采集到的人声不可避免的混杂外界噪声 可以通过信号处理的方法在处理前将其去除 以获得 纯净 的语音信号 这一过程称为降噪或者语音增强 从麦克风数量上分为单麦克降噪 多
WebRTC实时语音算法工程实现
算法
语音增强噪声
麦克风阵列波束形成
我的书 淘宝购买链接 当当购买链接 京东购买链接 波束形成 beamforming 体现的是声源信号的空域选择性 许多传统波束形成方法具有线性处理结构 波束形成需要考虑三个方面 1 麦克风阵列个数 2 性能 3 鲁棒性 在麦克风较少时 波束
WebRTC实时语音算法工程实现
波束形成
语音识别-信号处理篇
我的书 淘宝购买链接 当当购买链接 京东购买链接 连接前端和后端的语音识别 ASR 的关键是给到后端 根据特征判定词 句 系统的特征类型和特征质量 对于传统的语音识别系统常采用MFCC mel frequency ceptral coeff
WebRTC实时语音算法工程实现
语音识别
前端
Kaldi知识点汇集
我的书 淘宝购买链接 当当购买链接 京东购买链接 特征提取 MFCC compute mfcc feats cc Create MFCC feature files Usage compute mfcc feats options
WebRTC实时语音算法工程实现
kaldi声学模型
kaldi知识点
Kaldi声学模型训练
我的书 淘宝购买链接 当当购买链接 京东购买链接 支持标准的基于ML训练的模型 线性变换 如LDA HLDA MLLT STC 基于fMLLR MLLR的说话人自适应 支持混合系统 支持SGMMs 基于fMLLR的说话人识别 模型代码 可以
WebRTC实时语音算法工程实现
Kaldi
声学模型
GMM
AM
tensorflow 模型文件
我的书 购买链接 京东购买链接 淘宝购买链接 当当购买链接 tensorflow生成的模型文件主要有三个 meta index和 data 分成三个文件的原因是tensorflow将计算图结构和变量值存储在不同的文件里 meta文件描述的是
WebRTC实时语音算法工程实现
语音编码之压缩
我的书 购买链接 京东购买链接 淘宝购买链接 当当购买链接 这本书里叙述了SILK和Opus语音编解码器 这里简单的串接编解码的核心知识点 LPC LPC Linear predictive coding 在音频和语音处理领域常用于表示压缩
WebRTC实时语音算法工程实现
seq2seq
我的书 淘宝购买链接 当当购买链接 京东购买链接 seq2seq是通用编码器 解码器框架 encoder decoder framework 可以用在机器翻译 文本摘要 会话建模 图像描述 源码 https github com googl
WebRTC实时语音算法工程实现
Seq2Seq
tensorflow
RNN
模拟域频率与数字域频率关系
我的书 淘宝购买链接 当当购买链接 京东购买链接 数字频率于模拟频率互相转化的公式如下 2 f
WebRTC实时语音算法工程实现
信号处理
频率
语音自适应回声消除(AEC)算法
我的书 淘宝购买链接 当当购买链接 京东购买链接 自适应回声消除算法 欢迎留言交流 AEC算法早期用在Voip 电话这些场景中 自从智能设备诞生后 智能语音设备也要消除自身的音源 这些音源包括音乐或者TTS机器合成声音 本文基于开源算法阐述
WebRTC实时语音算法工程实现
智能语音
算法
MATLAB
tensorflow 移植到android平台
我的书 淘宝购买链接 当当购买链接 京东购买链接 本文基于 https github com MindorksOpenSource AndroidTensorFlowMachineLearningExample 下载和安装jdk ndk和s
WebRTC实时语音算法工程实现
tensorflow
Android
模型推理那些事
模型推理那些事 目前主流的深度学习框架有目前越来越多的深度学习框架 工具集以及定制化硬件使得构建 部署和跨框架管理深度学习越来越复杂 常用的深度学习框架有TensorFlow Pytorch MXNet和CNTK 因为训练最为耗时 所以常使
WebRTC实时语音算法工程实现
EM算法
我的书 淘宝购买链接 当当购买链接 京东购买链接 前一篇文章提到了基于统计模型的VAD决策方法 在看 WebRTC之VAD算法 语音增强系列博文 时 其计算概率使用的高斯参数是给定的 那么问题来了 1 webrtc中给定的参数是如何得到的
WebRTC实时语音算法工程实现
算法
EM
语音识别
音频应用处理器性能benchmark
我的书 购买链接 京东购买链接 淘宝购买链接 当当购买链接 处理器类别 1 Analog Devices SHARC Blackfin SigmaDSP 2 TI c55 c67x c66x 3 ARM cortex M4 M7 corte
WebRTC实时语音算法工程实现
WebRTC之VAD算法
我的书 购买链接 京东购买链接 淘宝购买链接 当当购买链接 VAD Voice Activity Detection 算法的作用是检测语音 在远场语音交互场景中 VAD面临着两个难题 1 可以成功检测到最低能量的语音 灵敏度 2 如何在多噪
WebRTC实时语音算法工程实现
webrtc
算法
VAD
笔记
零散个人笔记 书籍已出版 完整版 淘宝 京东 当当有售 1 tensorflow源码完整下载方法 git clone recurse submodules https github com tensorflow tensorflow git
WebRTC实时语音算法工程实现
语音识别