为什么mel谱从8k到24k的操作是放到wavenet里面,而不是让Vocoder去干这个事情呢?
chenht2021 opened this issue · comments
Haitao commented
我没有理解错的代码的话,在VQGAN里面,8k mel谱经过encoder,quantizer,再送入decoder解码为24k mel谱。有个疑问:为啥让decoder来把mel谱超分到24k,感觉是不是放到vocoder里干这个事情更好?
Leng Yue commented
VQGAN 基本只学习 16k 的音频 (也就是 8k mel) 作为输入, 输出 44.1k 纯粹是为了音质稍微好点.. 实际上我们现在也用 VITS Decoder 替换掉了 VQGAN 解码部分.