对环绕声的语义的空间理解是自动驾驶汽车需要安全驾驶决策所需的关键能力。最近,纯粹基于视觉的解决方案已增强了研究的兴趣。在特定的方法中,从多个摄像机中提取鸟类视图(BEV)的方法表现出了很好的空间理解性能。本文介绍了学习的位置编码的依赖性,以将基于变压器的甲基化的图像和BEV特征映射元素关联。我们提出利用外两极的几何约束,以模拟相机注意场与BEV之间的关系。它们被纳入注意机制中,作为一种新的归因术语,是学习位置编码的替代方案。实验表明,与隐式学习摄像机配置相比,我们的方法的大鹰队以2%MIOU的方式优于2%MIOU的BEV方法,并且具有出色的概括能力。
主要关键词