PlayVoice / Grad-SVC

Diffusion Singing Voice Conversion based on Grad-TTS from HuaWei

Home Page:https://huggingface.co/spaces/maxmax20160403/grad-svc

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

电音现象问题请教

postmelone opened this issue · comments

想请教一下,在经过扩散模型之前的声学模型,也就是从hubert 到 mel的这个阶段,这个出来的mel直接送到声码器,为啥会有电音现象呀,按理来说,hubert已经包含足够多的信息了,为什么生成的mel谱还有那么多平行的共振峰呢?楼主有没有试过用wavLM替代hubert呀?

电音是由于mel的模糊导致的;从hubert到mel,模型的建模能力不够就会导致mel丢失细节,从而产生电音。wavLM没有试过。