多语种语音替换Pipeline

一、配置说明

配置文件为config.json，各项配置说明如下。

{
    "TranslatorKEY": "翻译器密钥",
    "TranslatorENDPOINT": "翻译器终结点",
    "TranslatorREGION": "翻译器地区",
    "SpeechKEY": "语音服务密钥",
    "SpeechREGION": "语音服务地区"
}

本项目的主要功能均依托于Azure服务，项目运行前要先在Azure上创建翻译服务和语音服务。

二、依赖项

本项目利用ffmpeg包提取音频，并使用moviepy和pydub来处理音视频，使用audiotsm实现WSOLA算法，从而使得音频变速不变调，使用azure-cognitiveservices-speech包（Azure语音SDK）来获取语音服务，使用requests、 uuid包发送request来获取翻译服务（Azure翻译器）。

pip install ffmpeg-python moviepy pydub
pip install azure-cognitiveservices-speech
pip install requests uuid
pip isntall audiotsm

三、代码说明

ASR.py包含语音转文本类STT。
TRANS.py包含翻译器类Translator。
TTS.py包含文本转语音类TTS。
AudioPre.py包含各种音视频处理函数，部分函数采用命令行方式使用ffmpeg。
main.py提供了简单的使用样例。

night-killer / pyAzureSpeech

多语种语音替换Pipeline

一、配置说明

二、依赖项

三、代码说明

About

Languages