FAcodec 代码细节问题

您好，请问 FAcodec/modules /quantize.py中FApredictors中forward_v2函数注释掉了 spk_pred = self.timbre_predictor(timbre)[0] 这行代码，因此timbre为None，这里会导致后面

     spk_pred_logits = preds['timbre']
     spk_loss = F.cross_entropy(spk_pred_logits, spk_labels)

spk_pred_logits 的内容为None，因此报错，这里是bug吗?

Jun 25 '24 11:06 check-777

感谢指正，之前传上来的代码版本有问题，现在修正过来了

Jun 25 '24 12:06 Plachtaa

感谢指正，之前传上来的代码版本有问题，现在修正过来了

spk_pred = self.timbre_predictor(timbre)[0] 这个地方应该去掉[0]，要不和标签的维度对不上

Jun 25 '24 12:06 check-777

感谢指正，之前传上来的代码版本有问题，现在修正过来了

spk_pred = self.timbre_predictor(timbre)[0] 这个地方应该去掉[0]，要不和标签的维度对不上

对，这应该是一个Linear，改过来了

Jun 25 '24 13:06 Plachtaa

还有一个地方有些疑问，在meldatasets处理数据的时候， `to_mel = torchaudio.transforms.MelSpectrogram( n_mels=MEL_PARAMS['n_mels'], **SPECT_PARAMS) mean, std = -4, 4

def preprocess(wave): # wave = wave.unsqueeze(0) wave_tensor = torch.from_numpy(wave).float() mel_tensor = to_mel(wave_tensor) mel_tensor = (torch.log(1e-5 + mel_tensor.unsqueeze(0)) - mean) / std return mel_tensor`

我发现你默认使用的采样率是24K，torchaudio.transforms.MelSpectrogram的默认采样率是16K，这点是出于什么考虑

Jun 26 '24 02:06 check-777