配置文件为config.json
,各项配置说明如下。
{
"TranslatorKEY": "翻译器密钥",
"TranslatorENDPOINT": "翻译器终结点",
"TranslatorREGION": "翻译器地区",
"SpeechKEY": "语音服务密钥",
"SpeechREGION": "语音服务地区"
}
本项目的主要功能均依托于Azure服务,项目运行前要先在Azure上创建翻译服务和语音服务。
本项目利用ffmpeg
包提取音频,并使用moviepy
和pydub
来处理音视频,使用audiotsm
实现WSOLA算法,从而使得音频变速不变调,使用azure-cognitiveservices-speech
包(Azure语音SDK)来获取语音服务,使用requests
、 uuid
包发送request
来获取翻译服务(Azure翻译器)。
pip install ffmpeg-python moviepy pydub
pip install azure-cognitiveservices-speech
pip install requests uuid
pip isntall audiotsm
ASR.py
包含语音转文本类STT
。TRANS.py
包含翻译器类Translator
。TTS.py
包含文本转语音类TTS
。AudioPre.py
包含各种音视频处理函数,部分函数采用命令行方式使用ffmpeg
。main.py
提供了简单的使用样例。