babysor / MockingBird

🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问作者大大,encoder如何训练?

onedotone-wei opened this issue · comments

看了知乎链接的教程,尝试训练encoder
Screenshot 2024-04-29 184437
练了半天,这结果似乎没什么变化
wei_umap_038600
wei_umap_038700
数据自建的,有2个多G
问题1:这种情况是正常的吗?如果不正常是什么原因造成的?
问题2:根据知乎上的说法“实测了一次 训练synthesizer时,4000左右step就能attention收敛,22k step的时候loss就到0.35了,可以很快进行finetune,算是超越预期。”,训练synthesizer时,如何把encoder加入?

commented

正常。encoder的训练要求要高很多,数据量要大、step要多很多,建议只做微调。

由于结构问题,encoder和synth是分开训练的

感谢回复,我再跑一段时间看看