基础知识提问
您好,首先,感谢你精彩的工作!我想咨询一下您一个问题,在引言中"However, a critical limitation arises when a 3D reference point, fixed during training, is projected outside the image size for a specific camera, the projection-first method no longer applies deformable attention to extracting features for this reference point.",对于这句话,我不大理解。一个3D参考点投影到mult-view图像时,没有hit某一个特定view的时候,不应该是不采样该view 的特征,而采样其他hitted的view特征嘛
您好,首先,感谢你精彩的工作!我想咨询一下您一个问题,在引言中"However, a critical limitation arises when a 3D reference point, fixed during training, is projected outside the image size for a specific camera, the projection-first method no longer applies deformable attention to extracting features for this reference point.",对于这句话,我不大理解。一个3D参考点投影到mult-view图像时,没有hit某一个特定view的时候,不应该是不采样该view 的特征,而采样其他hitted的view特征嘛
很高兴你对我们工作的感兴趣。以文中fig5为例,一个query只能hit到左或右图像时,现有方法只收集hitted view的特征。如这个query负责感知这辆大车,大车出现在左右两图片中,显然这两部分在3D空间中是非常近的,我们希望这两部分特征能收集在一起做attn.,而不是因为“hit view”的设定可能只取某个图像的特征。由于传感器安装设定,以及预设的固定3D参考点,两相机“交界”部分的3D query,可能就因为一点点的位置偏差(1cm),没能投影到两个view,导致“hit view”方法下一张图像特征被忽略了,我们觉得不合理。可以从多方面处理,就不展开了,我们的方案也只是一种可行方案。
十分感谢您的耐心回答。我是刚入门occ的,有一些问题还不能充分理解。我还想问一下,根据您的setting,voxel queries 的尺寸为1001008,这与最终的预测空间20020016相比缩小了,也就是说一个query对应的空间大小应该为0.80.80.8,为什么会感知一整个大车呢,应该是感知一部分吧,然后,正好这部分被两相机分开了,又因为一点点的位置偏差(1cm),没能投影到两个view,因此用您的方案来解决这个问题。我不知道我理解的对不对,期待您的回复!
可以看一下代码具体实现,最后输出会采样到(200, 200, 16)。感知整个车只是举例,是从通用特征提取的角度来看。occ的话你可以想象要检测跨两个相机的区域,比如一颗树在两个相机里各出现一半,让query有能力同时得到两个相机的特征来判断是不是树的方式要好于“hit view”的方式。