为什么mel谱从8k到24k的操作是放到wavenet里面，而不是让Vocoder去干这个事情呢？

Question

chenht2021 opened this issue a month ago · comments

我没有理解错的代码的话，在VQGAN里面,8k mel谱经过encoder，quantizer，再送入decoder解码为24k mel谱。有个疑问：为啥让decoder来把mel谱超分到24k，感觉是不是放到vocoder里干这个事情更好？

Leng Yue · Answer 1 · Sun May 12 2024 11:44:03 GMT+0800 (China Standard Time)

VQGAN 基本只学习 16k 的音频 (也就是 8k mel) 作为输入, 输出 44.1k 纯粹是为了音质稍微好点.. 实际上我们现在也用 VITS Decoder 替换掉了 VQGAN 解码部分.