训练说话模型而非唱歌的问题

Question

训练说话模型而非唱歌的问题

ILG2021 opened this issue 4 months ago · comments

ILG2021 commented 4 months ago

近期尝试用sovits训练说话人模型，训练数据是中文，目标声音是英文，发现在句子结束的时候声音会上扬，不知道是怎么回事。推断是底模的作用，底模主要是唱歌，所以模仿的时候会按照唱歌的模式，不知道我理解的是否对。后来我又尝试了去掉底模训练，出来的结果基本是噪音。不知道哪位可以指导下？

相比rvc，sovits有两个巨大的优势，声音质量好很多，另外跨语言能力较强，这个可能跟先验编码器优秀的去说话人设计有关。如果通过加大数据集能否解决此问题？

Shadow · Answer 1 · Tue Mar 12 2024 22:57:53 GMT+0800 (China Standard Time)

记得改pitch 如果是歌曲就不用，句子要改

Shadow · Answer 2 · Tue Mar 12 2024 22:59:12 GMT+0800 (China Standard Time)

或者你可以折腾一下我适配的largev3和rmvpe
不过largev3练出来的模型可能底噪多点

ILG2021 · Answer 3 · Wed Mar 13 2024 12:18:58 GMT+0800 (China Standard Time)

记得改pitch 如果是歌曲就不用，句子要改

谢谢回复。改pitch？我训练的干声没有唱歌的。

Shadow · Answer 4 · Wed Mar 13 2024 12:33:52 GMT+0800 (China Standard Time)

不影响但pitch需要改，rmvpe倒是不需要，你或许看可以看看我的fork

Taiwan1912 · Answer 5 · Wed Mar 13 2024 21:55:56 GMT+0800 (China Standard Time)

或者你可以折腾一下我适配的largev3和rmvpe 不过largev3练出来的模型可能底噪多点

試用了一下對於多版本拼接的使用者很方便,整合了Rmver、Crepe推理
另外如果把whisper-vits-svc-bigvgan-mix-v2的svc_train_retrieval、svc_inference
丟進去so-vits-svc-5.0-LargeV3-MiX3
然後先跑一次python svc_inferencermvpev3.py 推理
就能使用svc_inference指令去跑特徵檢索
變成一個版本能跑三種版本的語音做拼接
Crepe、Rmvpe、特徵檢索

Shadow · Answer 6 · Wed Mar 13 2024 23:14:37 GMT+0800 (China Standard Time)

或者你可以折腾一下我适配的largev3和rmvpe 不过largev3练出来的模型可能底噪多点

試用了一下對於多版本拼接的使用者很方便,整合了Rmver、Crepe推理
另外如果把whisper-vits-svc-bigvgan-mix-v2的svc_train_retrieval、svc_inference
丟進去so-vits-svc-5.0-LargeV3-MiX3
然後先跑一次python svc_inferencermvpev3.py 推理
就能使用svc_inference指令去跑特徵檢索
變成一個版本能跑三種版本的語音做拼接
Crepe、Rmvpe、特徵檢索

我有时间搞一下

ILG2021 · Answer 7 · Thu Mar 14 2024 06:14:52 GMT+0800 (China Standard Time)

看起来有希望，能搞个模式开关吗？唱歌的和说话的。你这边对pitch的处理和原作有什么区别？

Shadow · Answer 8 · Fri Mar 15 2024 12:20:57 GMT+0800 (China Standard Time)

你可以修改pitch内容，crepe需要修改pitch/inferencecrepe.py的132行代码，
sing改成voice或者slow，slow在原库中有，我去除了，如果你想用slow跑我的fork，你可以复制相关代码粘贴到我的fork项目包里

Shadow · Answer 9 · Fri Mar 15 2024 12:21:10 GMT+0800 (China Standard Time)

rmvpe不需要这个步骤

ILG2021 · Answer 10 · Fri Mar 15 2024 17:11:54 GMT+0800 (China Standard Time)

你可以修改pitch内容，crepe需要修改pitch/inferencecrepe.py的132行代码， sing改成voice或者slow，slow在原库中有，我去除了，如果你想用slow跑我的fork，你可以复制相关代码粘贴到我的fork项目包里

非常感谢。

ILG2021 · Answer 11 · Fri Mar 15 2024 17:26:21 GMT+0800 (China Standard Time)

大佬，可以指导下 issue 180 issue 179吗？

Shadow · Answer 12 · Fri Mar 15 2024 23:08:49 GMT+0800 (China Standard Time)

best.pt是没有的，一般看mel图，如果real和fake几乎一致就代表差不多了

Shadow · Answer 13 · Fri Mar 15 2024 23:11:05 GMT+0800 (China Standard Time)

失真问题至少我没遇到过，可能是特定歌曲影响

ILG2021 · Answer 14 · Sat Mar 16 2024 09:09:06 GMT+0800 (China Standard Time)

尝试了一下compute_f0_voice，尾音上扬依然存在，使用compute_f0_mouth解决。失真的问题在音频比较长的时候比较容易出现。我用的是5.0原版

Shadow · Answer 15 · Sun Mar 24 2024 00:53:07 GMT+0800 (China Standard Time)

voice是给朗读音频用的，如果你不在意rmvpe的音质比crepe差一点点的事实，你确实可以使用rmvpe进行推理，即使是crepe出来的模型也可以使用rmvpe进行推理，如果还是有问题建议重新训练

ILG2021 · Answer 16 · Sun Mar 24 2024 06:15:55 GMT+0800 (China Standard Time)

voice是给朗读音频用的，如果你不在意rmvpe的音质比crepe差一点点的事实，你确实可以使用rmvpe进行推理，即使是crepe出来的模型也可以使用rmvpe进行推理，如果还是有问题建议重新训练

通过看其他issues，我替换rmvpe之后解决了失真问题。感谢回复