yulj21
yulj21
mark 一下
hubert特征采用的是 https://huggingface.co/TencentGameMate/chinese-hubert-large/tree/main这个链接下的模型
训练的时候要注意把样本打乱,不然不容易收敛
cmlr数据集有个缺点,就是说话人只有11个,而且都是播音腔,这个会导致后面用别的音频去生成的视频的时候效果很差,我用了接近播音腔的tts合成的音频,生成的效果还可以,但是用自己说话的音频的话,效果特别差。最近打算用lrw-1000去做训练,看看效果怎么样
语音克隆用的是讯飞的,公司采购的
中文的话建议用hubert特征训练,训练结果还可以
这个我也不知道 作者没提供 论文里提了一嘴 可以看下参考论文
推荐一个项目,talkinggaussian