FreeVC icon indicating copy to clipboard operation
FreeVC copied to clipboard

转换后音色跟着 source 而不是 target

Open Blakey-Gavin opened this issue 1 year ago • 10 comments

您好,我将 ssl model 更换为中文版 wav2vec2 和 hubert,然后进行了 retrain 和 fine-tune,但不管哪种方式,转换出来的结果都是音色和 source 相似而不是 target。

请问可能的原因是什么,我应该怎么解决这个问题?

Blakey-Gavin avatar Oct 21 '24 03:10 Blakey-Gavin

我也是,而且我还用了很多数据

zxj329 avatar Oct 21 '24 09:10 zxj329

我数据也有七八十小时。你找到原因了吗?我查了很久,不知道问题出在哪儿

Blakey-Gavin avatar Oct 21 '24 14:10 Blakey-Gavin

我的数据有几千个小时都不行,还在找

zxj329 avatar Oct 22 '24 04:10 zxj329

好的,你要是找到原因了方便告知一下吗?非常感谢!

Blakey-Gavin avatar Oct 22 '24 08:10 Blakey-Gavin

你看下你的mel-loss是多少,有没有下降

zxj329 avatar Oct 22 '24 08:10 zxj329

整体上看是下降的 image

Blakey-Gavin avatar Oct 22 '24 15:10 Blakey-Gavin

我现在在做实验,你的数据是否每个人的声音数目差不多嘛?还是说有些人数据很多

zxj329 avatar Oct 22 '24 16:10 zxj329

这个我之前倒是没统计。统计出来如下: 小于 100:non 100-200:10 speakers 200-300:30 speakers 300-400:34 speakers 400-500:119 speakers 500-600:16 speakers 大于 600: non

utterances 数范围:139-506

Blakey-Gavin avatar Oct 23 '24 01:10 Blakey-Gavin

你试试每个speaker在数目差不多呢

zxj329 avatar Oct 23 '24 02:10 zxj329

嗯嗯,等有时间的吧,现在还需要忙其它事情。

Blakey-Gavin avatar Oct 23 '24 09:10 Blakey-Gavin