FAcodec icon indicating copy to clipboard operation
FAcodec copied to clipboard

代码细节问题

Open check-777 opened this issue 1 year ago • 4 comments

您好,请问 FAcodec/modules /quantize.py中FApredictors中forward_v2函数注释掉了 spk_pred = self.timbre_predictor(timbre)[0] 这行代码,因此timbre为None,这里会导致后面

     spk_pred_logits = preds['timbre']
     spk_loss = F.cross_entropy(spk_pred_logits, spk_labels)

spk_pred_logits 的内容为None,因此报错,这里是bug吗?

check-777 avatar Jun 25 '24 11:06 check-777

感谢指正,之前传上来的代码版本有问题,现在修正过来了

Plachtaa avatar Jun 25 '24 12:06 Plachtaa

感谢指正,之前传上来的代码版本有问题,现在修正过来了

spk_pred = self.timbre_predictor(timbre)[0] 这个地方应该去掉[0],要不和标签的维度对不上

check-777 avatar Jun 25 '24 12:06 check-777

感谢指正,之前传上来的代码版本有问题,现在修正过来了

spk_pred = self.timbre_predictor(timbre)[0] 这个地方应该去掉[0],要不和标签的维度对不上

对,这应该是一个Linear,改过来了

Plachtaa avatar Jun 25 '24 13:06 Plachtaa

还有一个地方有些疑问,在meldatasets处理数据的时候, `to_mel = torchaudio.transforms.MelSpectrogram( n_mels=MEL_PARAMS['n_mels'], **SPECT_PARAMS) mean, std = -4, 4

def preprocess(wave): # wave = wave.unsqueeze(0) wave_tensor = torch.from_numpy(wave).float() mel_tensor = to_mel(wave_tensor) mel_tensor = (torch.log(1e-5 + mel_tensor.unsqueeze(0)) - mean) / std return mel_tensor`

我发现你默认使用的采样率是24K,torchaudio.transforms.MelSpectrogram的默认采样率是16K,这点是出于什么考虑

check-777 avatar Jun 26 '24 02:06 check-777