PlayVoice / whisper-vits-svc

Core Engine of Singing Voice Conversion & Singing Voice Clone

Home Page:https://huggingface.co/spaces/maxmax20160403/sovits5.0

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

训练说话模型而非唱歌的问题

ILG2021 opened this issue · comments

近期尝试用sovits训练说话人模型,训练数据是中文,目标声音是英文,发现在句子结束的时候声音会上扬,不知道是怎么回事。推断是底模的作用,底模主要是唱歌,所以模仿的时候会按照唱歌的模式,不知道我理解的是否对。后来我又尝试了去掉底模训练,出来的结果基本是噪音。不知道哪位可以指导下?

相比rvc,sovits有两个巨大的优势,声音质量好很多,另外跨语言能力较强,这个可能跟先验编码器优秀的去说话人设计有关。如果通过加大数据集能否解决此问题?

记得改pitch 如果是歌曲就不用,句子要改

或者你可以折腾一下我适配的largev3和rmvpe
不过largev3练出来的模型可能底噪多点

记得改pitch 如果是歌曲就不用,句子要改

谢谢回复。改pitch?我训练的干声没有唱歌的。

不影响 但pitch需要改,rmvpe倒是不需要,你或许看可以看看我的fork

或者你可以折腾一下我适配的largev3和rmvpe 不过largev3练出来的模型可能底噪多点

試用了一下對於多版本拼接的使用者很方便,整合了Rmver、Crepe推理
另外如果把whisper-vits-svc-bigvgan-mix-v2的svc_train_retrieval、svc_inference
丟進去so-vits-svc-5.0-LargeV3-MiX3
然後先跑一次python svc_inferencermvpev3.py 推理
就能使用svc_inference指令去跑特徵檢索
變成一個版本能跑三種版本的語音做拼接
Crepe、Rmvpe、特徵檢索

或者你可以折腾一下我适配的largev3和rmvpe 不过largev3练出来的模型可能底噪多点

試用了一下對於多版本拼接的使用者很方便,整合了Rmver、Crepe推理
另外如果把whisper-vits-svc-bigvgan-mix-v2的svc_train_retrieval、svc_inference
丟進去so-vits-svc-5.0-LargeV3-MiX3
然後先跑一次python svc_inferencermvpev3.py 推理
就能使用svc_inference指令去跑特徵檢索
變成一個版本能跑三種版本的語音做拼接
Crepe、Rmvpe、特徵檢索

我有时间搞一下

看起来有希望,能搞个模式开关吗?唱歌的和说话的。你这边对pitch的处理和原作有什么区别?

你可以修改pitch内容,crepe需要修改pitch/inferencecrepe.py的132行代码,
sing改成voice或者slow,slow在原库中有,我去除了,如果你想用slow跑我的fork,你可以复制相关代码粘贴到我的fork项目包里

rmvpe不需要这个步骤

你可以修改pitch内容,crepe需要修改pitch/inferencecrepe.py的132行代码, sing改成voice或者slow,slow在原库中有,我去除了,如果你想用slow跑我的fork,你可以复制相关代码粘贴到我的fork项目包里

非常感谢。

大佬,可以指导下 issue 180 issue 179吗?

best.pt是没有的,一般看mel图,如果real和fake几乎一致就代表差不多了

失真问题至少我没遇到过,可能是特定歌曲影响

尝试了一下compute_f0_voice,尾音上扬依然存在,使用compute_f0_mouth解决。失真的问题在音频比较长的时候比较容易出现。我用的是5.0原版

voice是给朗读音频用的,如果你不在意rmvpe的音质比crepe差一点点的事实,你确实可以使用rmvpe进行推理,即使是crepe出来的模型也可以使用rmvpe进行推理,如果还是有问题建议重新训练

voice是给朗读音频用的,如果你不在意rmvpe的音质比crepe差一点点的事实,你确实可以使用rmvpe进行推理,即使是crepe出来的模型也可以使用rmvpe进行推理,如果还是有问题建议重新训练

通过看其他issues,我替换rmvpe之后解决了失真问题。感谢回复