Plachtaa / FAcodec

Training code for FAcodec presented in NaturalSpeech3

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

代码细节问题

check-777 opened this issue · comments

您好,请问 FAcodec/modules /quantize.py中FApredictors中forward_v2函数注释掉了
spk_pred = self.timbre_predictor(timbre)[0]
这行代码,因此timbre为None,这里会导致后面

     spk_pred_logits = preds['timbre']
     spk_loss = F.cross_entropy(spk_pred_logits, spk_labels)

spk_pred_logits 的内容为None,因此报错,这里是bug吗?

感谢指正,之前传上来的代码版本有问题,现在修正过来了

感谢指正,之前传上来的代码版本有问题,现在修正过来了

spk_pred = self.timbre_predictor(timbre)[0]
这个地方应该去掉[0],要不和标签的维度对不上

感谢指正,之前传上来的代码版本有问题,现在修正过来了

spk_pred = self.timbre_predictor(timbre)[0] 这个地方应该去掉[0],要不和标签的维度对不上

对,这应该是一个Linear,改过来了

还有一个地方有些疑问,在meldatasets处理数据的时候,
`to_mel = torchaudio.transforms.MelSpectrogram(
n_mels=MEL_PARAMS['n_mels'], **SPECT_PARAMS)
mean, std = -4, 4

def preprocess(wave):
# wave = wave.unsqueeze(0)
wave_tensor = torch.from_numpy(wave).float()
mel_tensor = to_mel(wave_tensor)
mel_tensor = (torch.log(1e-5 + mel_tensor.unsqueeze(0)) - mean) / std
return mel_tensor`

我发现你默认使用的采样率是24K,torchaudio.transforms.MelSpectrogram的默认采样率是16K,这点是出于什么考虑