ViewFormer-Occ 基础知识提问

您好，首先，感谢你精彩的工作！我想咨询一下您一个问题，在引言中"However, a critical limitation arises when a 3D reference point, fixed during training, is projected outside the image size for a specific camera, the projection-first method no longer applies deformable attention to extracting features for this reference point."，对于这句话，我不大理解。一个3D参考点投影到mult-view图像时，没有hit某一个特定view的时候，不应该是不采样该view 的特征，而采样其他hitted的view特征嘛

Oct 12 '24 03:10 Grimxiaohao

您好，首先，感谢你精彩的工作！我想咨询一下您一个问题，在引言中"However, a critical limitation arises when a 3D reference point, fixed during training, is projected outside the image size for a specific camera, the projection-first method no longer applies deformable attention to extracting features for this reference point."，对于这句话，我不大理解。一个3D参考点投影到mult-view图像时，没有hit某一个特定view的时候，不应该是不采样该view 的特征，而采样其他hitted的view特征嘛

很高兴你对我们工作的感兴趣。以文中fig5为例，一个query只能hit到左或右图像时，现有方法只收集hitted view的特征。如这个query负责感知这辆大车，大车出现在左右两图片中，显然这两部分在3D空间中是非常近的，我们希望这两部分特征能收集在一起做attn.，而不是因为“hit view”的设定可能只取某个图像的特征。由于传感器安装设定，以及预设的固定3D参考点，两相机“交界”部分的3D query，可能就因为一点点的位置偏差(1cm)，没能投影到两个view，导致“hit view”方法下一张图像特征被忽略了，我们觉得不合理。可以从多方面处理，就不展开了，我们的方案也只是一种可行方案。

Oct 13 '24 11:10 ViewFormerOcc

十分感谢您的耐心回答。我是刚入门occ的，有一些问题还不能充分理解。我还想问一下，根据您的setting，voxel queries 的尺寸为1001008，这与最终的预测空间20020016相比缩小了，也就是说一个query对应的空间大小应该为0.80.80.8，为什么会感知一整个大车呢，应该是感知一部分吧，然后，正好这部分被两相机分开了，又因为一点点的位置偏差(1cm)，没能投影到两个view，因此用您的方案来解决这个问题。我不知道我理解的对不对，期待您的回复！

Oct 13 '24 11:10 Grimxiaohao

可以看一下代码具体实现，最后输出会采样到(200, 200, 16)。感知整个车只是举例，是从通用特征提取的角度来看。occ的话你可以想象要检测跨两个相机的区域，比如一颗树在两个相机里各出现一半，让query有能力同时得到两个相机的特征来判断是不是树的方式要好于“hit view”的方式。

Oct 13 '24 13:10 ViewFormerOcc