lzhenboy / Speech2Text

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

本示例相关代码见github: https://github.com/lzhenboy/Speech2Text.git

1、视频抽取语音

目标:从视频文件中抽取语音
工具:ffmpeg
安装

brew install ffmpeg

示例

ffmpeg -i video-demo.mp4 -f wav -ar 16000 audio-demo.wav

参数解释

-i video-demo.mp4 # 输入文件路径
-f wav # 输出语音文件格式为wav
-ar 16000 # 采样率为16000
speech-demo.wav # 输出文件路径

2、语音识别

目标:从语音中识别文本
开源实现SpeechRecognition
安装

pip install SpeechRecognition

示例

python speech2text.py

效果评估
对语音连续的音频文件,google的语音识别接口识别效果较好,但对于中间有长时间停顿的音频文件,语音识别效果一般,往往会将后半部分漏掉。

参考文献

1、使用Python进行语音识别---将音频转为文字
2、Python使用Speech_Recognition实现普通话识别
3、ffmpeg 从视频中提取WAV格式的音频

About