lzhenboy/Speech2Text

目标：从视频文件中抽取语音
工具：ffmpeg
安装：

brew install ffmpeg

示例：

ffmpeg -i video-demo.mp4 -f wav -ar 16000 audio-demo.wav

参数解释：

-i video-demo.mp4 # 输入文件路径
-f wav # 输出语音文件格式为wav
-ar 16000 # 采样率为16000
speech-demo.wav # 输出文件路径

目标：从语音中识别文本
开源实现：SpeechRecognition
安装：

pip install SpeechRecognition

示例：

python speech2text.py

效果评估：
对语音连续的音频文件，google的语音识别接口识别效果较好，但对于中间有长时间停顿的音频文件，语音识别效果一般，往往会将后半部分漏掉。

lzhenboy / Speech2Text