gobigrassland
gobigrassland
I am very confused that labels of query images are indices of list. In the script test_cars196.py, i get labels of query images from test_8131.txt instead of test_label.dat. Then the...
I check and modify the code generating training data. Then i re-generate the training data and labels and train again. Although the loss of landmark seems to converge, the detected...
I have same questions,too. why multiply sign_0 in "|x| * (2 * sign_0 * cos_theta_quadratic - 1)"
> 请问这个问题解决了吗 我训练之后的模型转huggingface 再加载也有这个错误 使用原始OpenClip代码加载从网上下载的模型文件后,再torch.save
> Hi, > > Thanks for your interest in our work. Based on your problem description, I suggest you check the following issues: > > 1. Do you have a...
> 请问你们(1)使用多少数据进行训练?(2)使用什么GPU,batch size多少,训练到多少步了呢? (1) 我使用了319条 hdtf视频 (2)训练用了8张A800,单卡batchsize=16, 训练step 10万步以上,epoch也有10个。 下面是我写的几处关键代码:预处理、Dataset、训练部分 (1)预处理部分,是参考MuseTalk推理代码修改,提取音频特征,获取人脸框这些代码没有修改。思路是准备好视频每帧裁剪人脸、对应no-mask VAE编码、对应的mask VAE编码、对应的音频特征。这样可以加速训练过程。 ``` # extract feature from an audio whisper_feature = audio_processor.audio2feat(f"{save_dir_full}/{video_audio_name}.mp3") whisper_chunks = audio_processor.feature2chunks(feature_array=whisper_feature,fps=fps) # face detection print("extracting...
> > 请问你们(1)使用多少数据进行训练?(2)使用什么GPU,batch size多少,训练到多少步了呢? > > (1)我这边用了320条HDTF视频数据,260条训练,60条测试 (2)用的1张A800,batch size=32,训练到50000步结束。其他参数都延用train.sh里默认的参数 你训练时,用于计算图片级损失这块,与train_codes分支保持一致吗? (我是转换为0-255 图片空间计算的loss,不知这块是否有关影响) train_codes 分支代码 ``` image_pred_img = (1 / vae_fp32.config.scaling_factor) * image_pred image_pred_img = vae_fp32.decode(image_pred_img).sample # Mask the top half...
> > 基于MuseTalk项目介绍,实现了一版训练代码。然后与train_codes分支进行对比,大体上是一致。然后也是基于约350条hdtf数据,训练出的模型合成效果出现了如下两个明显问题: (1)上半张脸和下半张脸,不协调,能看出色调不一致。(有些case还是比较明显的) (2)视频下半张脸抖动特别明显,视频播放看出是不连贯的。 请问,问题出现在什么地方?有什么建议吗?怎么才能复现当前项目开源的模型效果 > > 原始视频: > > out.mp4 > > 合成后视频: https://github.com/TMElyralab/MuseTalk/assets/23277618/df55aa88-c007-454d-92fc-9c0dc6d51504 > > 想确认一下,是只用了HDTF数据集训练的吗?如果掺杂一些质量不好的数据集,可能会导致问题。 > > 可以参照这里的代码下载HDTF。 https://github.com/universome/HDTF/blob/main/download.py 以及训练之前要将视频重采样到25FPS。 仅使用了HDTF数据集训练,由于下载失效等原因,仅保留了其中约320条训练数据。而且都是重采样到25fps。 我目前还在排除原因,不知道哪个环节出问题。您这边是能复现与现在开源的模型相一致的效果是吗?
> > loss_lip > > 我们的训练经验来看,需要的步数比较多,至少15w步以上。可以尝试训练更多步数 你们训练出当前模型,latent loss和image loss大概在什么范围。我这训练epoch=22(316个视频)的latent loss 约0.09-0.1,image loss约0.025-0.03; epoch=10时,latent loss约0.10-0.11,image loss约0.03-0.035。
@liuzysy 没有遇到类似情况。从作者的原模型出发,在hdtf数据集上训练,step=0时,lip_loss按我的写法,也就是9附近,而且很快就下降。你看看是否图片通道那里出错了。你可以按照作者代码的写法,进行预处理后再计算损失值。