EAT_code icon indicating copy to clipboard operation
EAT_code copied to clipboard

能否用imgs+wavs进行A2ET训练

Open HustZhenhua opened this issue 10 months ago • 5 comments

作者您好,我想对A2ET模型的训练进行复现,但是vox2数据集太大,预处理时间会很长,现在我这里有对vox2数据裁剪过的img和提取的对应的wav音频,请问能否完成对A2ET模型两种损失方式的训练?

HustZhenhua avatar Mar 27 '25 02:03 HustZhenhua

您好,感谢关注~ :blush:

理论上是可以的,只要根据预处理的代码准备好输入文件和输出文件,最后训练能收敛,能生成正常的talking-head视频就行。最好找几个视频处理一下训一训看看,有一些比如25fps (video),16000Hz (wav),256x256 (resolution)等这种条件需要仔细对齐,不然可能无法训练或收敛。如果有对不上的地方可以改一改预处理文件。具体训练过程可以参考log文件夹。

祝好~

yuangan avatar Mar 27 '25 02:03 yuangan

作者您好,非常感谢您的回复! 有几个问题想跟您再次确认一下:

  1. 在训练A2ET模型时,mead数据是不需要的,以及voxselect.txt只是在A2ET第二阶段的训练中需要,所以可以在frames_dataset_transformer25.py中删除这部分输入对吗? 2.我现有的数据是之前清洗并裁剪过的的vox2视频帧图片、poseimg数据以及对应音频,需要用预处理代码生成deepfeature32以及3D-latent 然后再进行训练吗?

HustZhenhua avatar Mar 27 '25 03:03 HustZhenhua

  1. mead可以放进去吧,只是当成普通数据用,用不用问题应该也不大,A2ET只是训嘴部的。
  2. 需要啊,不然你没法训练网络哇。可以去看看代码,会用到这些input,而且还得和帧的人脸表情匹配上才行。

yuangan avatar Mar 27 '25 04:03 yuangan

非常感谢您的回复和工作,请问如果只完成了A2ET模型第一阶段的训练,该如何使用demo进行推断呢?我想验证一下我用小样本训练的结果能否生成正常的talking-head视频

HustZhenhua avatar Mar 28 '25 12:03 HustZhenhua

你好,这个问题稍微有点麻烦,你需要修改demo.py以实现这个目的。

yuangan avatar Mar 30 '25 02:03 yuangan