FreeVC 转换后音色跟着 source 而不是 target

您好，我将 ssl model 更换为中文版 wav2vec2 和 hubert，然后进行了 retrain 和 fine-tune，但不管哪种方式，转换出来的结果都是音色和 source 相似而不是 target。

请问可能的原因是什么，我应该怎么解决这个问题？

Oct 21 '24 03:10 Blakey-Gavin

我也是，而且我还用了很多数据

Oct 21 '24 09:10 zxj329

我数据也有七八十小时。你找到原因了吗？我查了很久，不知道问题出在哪儿

Oct 21 '24 14:10 Blakey-Gavin

我的数据有几千个小时都不行，还在找

Oct 22 '24 04:10 zxj329

好的，你要是找到原因了方便告知一下吗？非常感谢！

Oct 22 '24 08:10 Blakey-Gavin

你看下你的mel-loss是多少，有没有下降

Oct 22 '24 08:10 zxj329

整体上看是下降的

Oct 22 '24 15:10 Blakey-Gavin

我现在在做实验，你的数据是否每个人的声音数目差不多嘛？还是说有些人数据很多

Oct 22 '24 16:10 zxj329

这个我之前倒是没统计。统计出来如下：小于 100：non 100-200：10 speakers 200-300：30 speakers 300-400：34 speakers 400-500：119 speakers 500-600：16 speakers 大于 600: non

utterances 数范围：139-506

Oct 23 '24 01:10 Blakey-Gavin

你试试每个speaker在数目差不多呢

Oct 23 '24 02:10 zxj329

嗯嗯，等有时间的吧，现在还需要忙其它事情。

Oct 23 '24 09:10 Blakey-Gavin