详细内容或原文请订阅后点击阅览
运动房间:未摆位的室内 3D 物体检测作为定位和映射
我们重新审视场景级 3D 对象检测,将其作为以对象为中心的框架的输出,该框架能够使用面向 3D 的框作为底层几何基元进行定位和映射。虽然现有的 3D 对象检测方法在全局范围内运行,并且隐式依赖于公制相机姿势的先验存在,但我们的方法“Rooms from Motion (RfM)”对一组未摆姿势的图像进行操作。通过将基于运动结构的标准 2D 关键点匹配器替换为基于图像派生 3D 框的以对象为中心的匹配器,我们可以估计公制相机姿势、对象轨迹和……
来源:Apple机器学习研究我们重新审视场景级 3D 对象检测,将其作为以对象为中心的框架的输出,该框架能够使用面向 3D 的框作为底层几何基元进行定位和映射。虽然现有的 3D 对象检测方法在全局范围内运行,并且隐式依赖于公制相机姿势的先验存在,但我们的方法“Rooms from Motion (RfM)”对一组未摆姿势的图像进行操作。通过用基于图像派生 3D 框的以对象为中心的匹配器替换基于运动结构的标准 2D 关键点匹配器,我们估计了度量相机姿势、对象轨迹,并最终生成全局语义 3D 对象图。当先验姿势可用时,我们可以通过针对单个观测值优化全局 3D 框来显着提高地图质量。 RfM 显示出强大的定位性能,并随后生成比 CA-1M 和 ScanNet++ 上领先的基于点和多视图 3D 对象检测方法更高质量的地图,尽管这些全局方法依赖于通过点云或密集体积的过度参数化。 Motion 的 Rooms 实现了一种通用的、以对象为中心的表示,这不仅将 Cubify Anything 的工作扩展到整个场景,而且还允许固有的稀疏定位和与场景中对象数量成比例的参数映射。
