LEAP issues

(not issue) technical discusstion/advice-seeking

3

翰文大神，您好： 1. 我想设计和实现（包括很好的训练出），带有强物理一致（个人认为显式表示是必须的）的3D/4D的端到端的模型，我认为最终“理想主义”的输出不是图片视频或者独立立体对象和场景，二是一个2D(远景)+2.5G(中景GS-like，pose-sensitive) + 3D/4D(近景，动态可交互)，并可以实时交互和双目渲染（给VR立体）。https://github.com/yuedajiong/super-ai 第二张图在学习和设计的过程中，我几乎扫完了所有早期CV，Mesh，NeRF, SDF，GS等所有论文。在这里，我想表达的是，大家都关注于symbol方向的chatgpt/gemini等，余下有限的AI研究者在vision方向也被nerf, gs甚至jepa和最新的sora吸引了绝大部分注意力，其实完全低估了类似你们这种leap论文在通向“牛逼完美理想主义：交互式动态立体世界”的在pipeline上重要性。绝对不是美言。 2. 一点具体问题的讨论： a) 我和jepa/ijepa的作者请教过一个问题，我们需要在什么空间来做vision上的学习计算，早期是pixel空间，jepa/lecun等是laten，sora也是laten。但我认为，可能是都必要： laten上更抽象紧致高效，但pixel上的操作也是必须的。比如：把产生的人脸鼻子上的那个红色像素点垃圾给删除掉。这种就必须要回到像素空间操作才能精准。 b) 在我的那个系统的算法流程图中，（算法已经实现调试好），有比较重要的一部分，就是在对象/场景级别的扩展的时候，我构造了一个Differentable Hash（可以e2e)，相比于all in one network的LLM类似那种，我认为，类似婴儿学习，开始几百几千对象可能需要所有网络参与，当学习到一定程度，其实可以冻结网络，新扩展对象的时候，只需要infer出这些对象在hash中的相关特征信息。 c) 无论 sora，还是leap，还是其他3d recon，都有时空一致性挑战。sora是在compressed then laten patchs上组织为grid，你leap这里采用了random...

yuedajiong

question about camera pose?

6

question #1: when train: need known camera pose(s) for related input images(s), rights? that is: NEED pose while train, need NOT pose while infer. right? question#2: to input data, if...

yuedajiong