mon030 / sovits3.0-32k-inference-tutorial

sovits3.0 32k

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

这个fork仓库只提供入门到推理的教程,训练部分看原仓库

  • 和推理不相关的代码全部精简掉了

使用前提:显存8G以上的N卡

模型简介

基于vits与softvc的歌声音色转换模型,通过SoftVC内容编码器提取源音频语音特征,与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。同时,更换声码器为 NSF HiFiGAN 解决断音问题

注意

  • 当前分支是sovits3.0 32khz版本的分支,32khz模型推理更快,显存占用大幅减小,数据集所占硬盘空间也大幅降低,推荐训练该版本模型
  • 如果要训练sovits3.0 48khz的模型请切换到main分支
  • 目前已更新sovits4.0 https://github.com/innnky/so-vits-svc/tree/4.0 (3.0模型和4.0不通用!)

环境安装

python下载安装3.8版本 安装程序记得勾选ADD TO PATH

安装项目环境:

点那个绿色的CODE按钮下载本仓库的代码压缩包并解压,打开cmd命令行,跳转到解压的文件夹位置,运行:

pip install -r requirements.txt
  • 建议pip install -r requirements.txt之前,把requirements.txt里面“torch” “torchaudio”删了去pytorch官网 参照自己的cuda版本下载对应的pytorch

如果感觉pip下载速度慢就改清华源再运行上面一条代码(改完之后若运行pip install命令出现黄色字体的报错,就把梯子关了重新运行)

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

放置下载的模型文件

  • soft vc hubert:hubert-soft-0d54a1f4.pt
    • 放在hubert目录下
  • 模型文件 G_XXXXX.pth (本仓库不提供)
    • 放在logs/32k目录下
  • 配置文件 config.json
    • 放在config目录下

命令行推理

使用 inference_main.py

python inference_main.py
  • 更改model_path为你自己训练的最新模型记录点
  • 将待转换的音频放在raw文件夹下
  • clean_names 写待转换的音频名称
  • trans 填写变调半音数量
  • spk_list 填写合成的说话人名称

Gradio(WebUI推理)

使用 sovits_gradio.py

  • 新建文件夹:checkpoints 并打开
  • 在checkpoints文件夹中新建一个文件夹作为项目文件夹,文件夹名为你的项目名称(这里以lulu为例)
  • 将你的模型更名为model.pth,配置文件更名为config.json,并放置到刚才创建的文件夹下
so-vits-svc-32k
  ├───checkpoints
  │     └───lulu
  │           ├───model.pth
  │           └───config.json
  └───...
python sovits_gradio.py

实时变声

自行下载vst插件并搜索常用宿主软件的安装教程,宿主软件尽量装在c盘,反正不必要的bug

https://github.com/zhaohui8969/VST_NetProcess-/releases/tag/v1.2

目前经验,一定装在 C:\Program Files\Common Files\VST3\NetProcess.vst3(这是解压出的文件夹名字)

这样au、studio设置相应路径就能识别了,D盘不知道为什么不识别

c盘根目录新建/temp/vst文件夹,创建文件netProcessConfig.json,内容为:

{
	// 记得删注释
	// 适配的版本号
	"configVersion": "1.1",
	// 触发音量阈值
	"fSampleVolumeWorkActiveVal": 0.05,
	// 多角色的配置列表
	"roleList": [
		{
			// HTTP服务的地址
			"apiUrl": "http://127.0.0.1:6842",
			// 角色ID
			"speakId": "0",
			// 角色别名(可随意修改)
			"name": "猫雷"
		},
		{
			"apiUrl": "http://127.0.0.1:6842",
			"speakId": "4",
			"name": "奕兰秋"
		}
	]
}

首先运行:

python flask_api.py

待出现运行网址127.0.0.1:6842后,再打开vst插件(项目的采样率一定要和麦克风的一样

插件有个小bug,必须等python的http成功运行后,才能调节插件的参数;不是大问题,自行注意即可

给某音轨挂载vst插件,打开录音准备(R)、监听(I),录音输入增益可以调高一些,即可使用

插件的音调调到中间左右,默认是-30,正常使用是-15~+15;音频最小切片时间调到0,响应速度会更快

教程基于原仓库修改

About

sovits3.0 32k

License:MIT License


Languages

Language:Python 100.0%