详细内容或原文请订阅后点击阅览
cubify任何东西:缩放室内3D对象检测
我们考虑了从商品手持设备中获取的单个RGB(-d)帧的室内3D对象检测。我们试图在数据和建模方面显着提高现状。首先,我们确定现有数据集对对象的规模,准确性和多样性有重大限制。结果,我们介绍了Cubify-任何1M(CA-1M)数据集,该数据集在超过1K的高度精确的激光扫描场景上详尽地标记了超过400K的3D对象,并将其接近完美的注册标记为超过3.5k手持式手持式捕获。接下来,我们建立Cubify Transformer…
来源:Apple机器学习研究我们考虑了从商品手持设备中获取的单个RGB(-d)帧的室内3D对象检测。我们试图在数据和建模方面显着提高现状。首先,我们确定现有数据集对对象的规模,准确性和多样性有重大限制。结果,我们介绍了Cubify-任何1M(CA-1M)数据集,该数据集在超过1K的高度精确的激光扫描场景上详尽地标记了超过400K的3D对象,并将其接近完美的注册标记为超过3.5k手持式手持式捕获。接下来,我们建立了Cubify Transformer(CUTR),这是一种完全变压器3D对象检测基线,而不是基于点或基于体素的表示,而不是在3D中运行,而是直接从RGB(-D)输入中得出的2D功能直接预测3D框。尽管这种方法缺乏任何3D感应性偏置,但我们表明,与CA-1M配对,CUTR优于基于点的方法 - 准确地召回了3D中62%以上的物体,并且在商品liDar-defives-defer-defives-defive的深度图中处理噪声和不确定性的能力明显更大,同时仅提供有希望的RGB不带架构的RGB,而无需更改架构。此外,通过在CA-1M上进行预训练,CUTR可以在Sun RGB-D的更多样化的变体上胜过基于点的方法 - 支持以下概念:尽管3D中的电感偏差在现有数据集的较小尺寸上很有用,但它们未能扩展到CA-1M的数据丰富的CA-1M的数据范围。总体而言,该数据集和基线模型提供了有力的证据,表明我们正在朝着可以有效地凝结任何东西的模型迈进。