fishaudio / fish-speech

Brand new TTS solution

Home Page:https://speech.fish.audio

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[BUG]vqgan训练过程和验证过程中quality计算差异

Naminwang opened this issue · comments

commented

训练过程中quality是通过mel计算出来的,quality = ((gt_mels.mean(-1) > -8).sum(-1) - 90) / 10
验证过程中是:torch.ones( vq_recon_features.shape[0], 1, device=vq_recon_features.device )* 2
请问以上两处的差异的背后原理是什么呢?

(110-90)/10 = 2, 110 bins 是一个中高质量的 mel spec 的 quality. 我们测试音频不打算生成很低质量的.

commented

(110-90)/10 = 2, 110 bins 是一个中高质量的 mel spec 的 quality. 我们测试音频不打算生成很低质量的.
(110-90)/10 能解释一下这个公式的含义吗?
如果我要训16k的数据,80个mel,步长200,窗长是800,n_fft 1024,这个公式该怎么适配呢?