最近有看到这个需求,想着怎么实现一下。
做到这个功能主体上也就几步:
声音识别生成字幕
识别视频内的声音内容转成字幕文件。
这一步有可能需要先将音频从视频中剥离出来,可以用ffmpeg来实现。
声音转化成字幕的方法,网上查到可用的方法有以下几种:
百度:
谷歌:
微软:只支持windows
讯飞:
用这种方式只能做到有限次数,没法实现本地大规模转换,云端api的调用超过一定的次数后需要付费,这个也正常。
字幕添加到视频
将字幕文件添加整合到视频中,可以用ffmpeg来实现
实现
有空写个apk把几种方式都整合以下看看效果。