fishaudio / fish-speech

Brand new TTS solution

Home Page:https://speech.fish.audio

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

为什么mel谱从8k到24k的操作是放到wavenet里面,而不是让Vocoder去干这个事情呢?

chenht2021 opened this issue · comments

我没有理解错的代码的话,在VQGAN里面,8k mel谱经过encoder,quantizer,再送入decoder解码为24k mel谱。有个疑问:为啥让decoder来把mel谱超分到24k,感觉是不是放到vocoder里干这个事情更好?

VQGAN 基本只学习 16k 的音频 (也就是 8k mel) 作为输入, 输出 44.1k 纯粹是为了音质稍微好点.. 实际上我们现在也用 VITS Decoder 替换掉了 VQGAN 解码部分.