T
T
could I get your reproduced code for study? Thanks a lot! @youngstu
还有,请问您论文比较3D pck 和 AUC 采用的是LifeNet得到的joint 还是 MANO模型映射后的joint?LiftNet 得到的的joint 和 MANO模型得到的joint 误差大吗?
感谢作者的回答!解答了我的疑问!还有问题想请教您一下: 1)您在论文采用了分阶段的训练策略,是因为先基于heatmap和silhouette获得一个比较的好的特征抽取器,对于后面LifeNet预测3D pose有帮助吗? 如果两个网络耦合到一起训练是不是结果会比较差? 2)我了解到MANO模型的 β 和 θ 参数的回归可以通过图像信息直接回归还有您论文中通过预测的 root-relative 3d pose 以 IK 的方式回归,请问这两种方式的优缺点都是什么啊?
请问实现了吗,在实现中有什么难点吗?
你不是用到了deepspeed_stage_zero3,换zero2应该可以跑 @qiji2023
> 1. 目前的模型是同时完成的。我们也做了一个带有cfg-embedding的方案,可能会在后续发布。蒸馏方案是dmd2。 > 2. 固定5.0 > 3. 大约3w+的数据量,48卡H100 谢谢您的解答,还有几个问题想请教下, 1.cfg-embedding模型训练时候,是全参微调的吗(如果数据量比较少的话,用lora会稳定训练些吗),cfg选值的范围大概是多少;以及为什么DMD的方案用到flow matching模型的时候,可以将预测的x0作为score。 2.我看到您在causvid-plus的reademe中说蒸馏数据来源于mixkit数据集,请问i2v-720p蒸馏模型的3w数据是有其他来源吗,还是用wan2.1的t2v或者i2v模型生成的。