ranchlai / mandarin-tts

Chinese Mandarin tts text-to-speech 中文 (普通话) 语音 合成 , by fastspeech 2 , implemented in pytorch, using waveglow as vocoder, with biaobei and aishell3 datasets

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

自己的数据,训练效果不理想

LinJinghuidev opened this issue · comments

拿aishell3的数据集训练,loss下降的很快,模型run2000轮就能输出较为清晰的语音。用自己收集来的语音去训练,收敛很慢且输出结果不太理想。
自己的数据频谱清晰无杂音,不是很明白为什么效果和aishell差这么多,请指教

没看出来aishell3有啥和我的音频差距大的地方,实验了四天还是搞不懂。没办法只能转tensorflow-tts了。

commented

两个建议可以试试

  1. 确认下有没有对齐,主要是duration.
  2. 从AIshell3 finetune过来,或者合在一起,添加一个新ID