这是一个声音克隆工具,可使用你的或者其他声音的音色,将一段文字合成为使用该声音说话的音频。
使用非常简单,没有GPU也可以使用,github下载预编译版本,双击 app.exe 打开一个web界面,鼠标点点快速体验,笔记本电脑就可使用,。
支持 中文、英文、日语、韩语 4种语言,可在线从麦克风录制声音。
为保证合成效果,建议录制时长5秒到20秒,发音清晰准确,不要存在背景噪声。
英文效果很棒,中文效果还凑合
1.mp4
- 右侧Releases中下载预编译版,适用于window 10/11(已含模型文件,因此压缩包有点大),Mac下请拉取源码自行编译
- 下载后解压到某处,比如E:/clone-voice 下
- 双击 run.bat ,等待自动打开web窗口,如下
- 输入文字,选择或录制声音,开始体验吧
- 为减小体积,预编译版仅支持CPU,若需GPU支持,请拉取源码本地编译
- 要求 python 3.9+
- 创建空目录,比如 E:/clone-voice
- 创建虚拟环境
python -m venv venv
- 激活环境
cd venv/scripts
,activate
,cd ../..
- 安装依赖 CPU版:
pip install -r requirements.txt
, GPU版:pip install -r requirements-gpu.txt
- 解压 ffmpeg.7z 到项目根目录
- 下载模型 model.pth 放到 models/tts_models--multilingual--multi-dataset--xtts_v2目录下
- 启动
python app.py