yulj21

Results 9 comments of


                                            yulj21

短句合成会漏字

mark 一下

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

hubert特征采用的是 https://huggingface.co/TencentGameMate/chinese-hubert-large/tree/main这个链接下的模型

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

训练的时候要注意把样本打乱，不然不容易收敛

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

cmlr数据集有个缺点，就是说话人只有11个，而且都是播音腔，这个会导致后面用别的音频去生成的视频的时候效果很差，我用了接近播音腔的tts合成的音频，生成的效果还可以，但是用自己说话的音频的话，效果特别差。最近打算用lrw-1000去做训练，看看效果怎么样

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

语音克隆用的是讯飞的，公司采购的

关于audio_visual_encoder.pth训练问题

中文的话建议用hubert特征训练，训练结果还可以

关于audio_visual_encoder.pth训练问题

这个我也不知道作者没提供论文里提了一嘴可以看下参考论文

Why is this happening? The Source and Driving are the same and it still gives a Bad Result

首帧不要张嘴

请问GS-SyncTalk什么进展？

推荐一个项目，talkinggaussian