代码细节问题
check-777 opened this issue · comments
您好,请问 FAcodec/modules /quantize.py中FApredictors中forward_v2函数注释掉了
spk_pred = self.timbre_predictor(timbre)[0]
这行代码,因此timbre为None,这里会导致后面
spk_pred_logits = preds['timbre']
spk_loss = F.cross_entropy(spk_pred_logits, spk_labels)
spk_pred_logits 的内容为None,因此报错,这里是bug吗?
感谢指正,之前传上来的代码版本有问题,现在修正过来了
感谢指正,之前传上来的代码版本有问题,现在修正过来了
spk_pred = self.timbre_predictor(timbre)[0]
这个地方应该去掉[0],要不和标签的维度对不上
感谢指正,之前传上来的代码版本有问题,现在修正过来了
spk_pred = self.timbre_predictor(timbre)[0] 这个地方应该去掉[0],要不和标签的维度对不上
对,这应该是一个Linear,改过来了
还有一个地方有些疑问,在meldatasets处理数据的时候,
`to_mel = torchaudio.transforms.MelSpectrogram(
n_mels=MEL_PARAMS['n_mels'], **SPECT_PARAMS)
mean, std = -4, 4
def preprocess(wave):
# wave = wave.unsqueeze(0)
wave_tensor = torch.from_numpy(wave).float()
mel_tensor = to_mel(wave_tensor)
mel_tensor = (torch.log(1e-5 + mel_tensor.unsqueeze(0)) - mean) / std
return mel_tensor`
我发现你默认使用的采样率是24K,torchaudio.transforms.MelSpectrogram的默认采样率是16K,这点是出于什么考虑