AI 如何学习 3D 观察并理解空间?

深度估计、基础分割和几何融合如何融合为空间智能人工智能如何学会在 3D 中观察并理解空间?首先出现在《走向数据科学》上。

来源:走向数据科学

以毫秒为单位拍摄的厨房照片。它可以分割街道场景中的每个物体,生成不存在的房间的真实图像,并对从未去过的地方进行令人信服的描述。

但要求它走进一个实际的房间,并告诉你哪个物体位于哪个架子上,桌子离墙壁有多远,或者物理空间中天花板的终点和窗户的起点 -

幻象破灭了。

主导计算机视觉基准的模型在平面上运行。他们对二维网格上的像素进行推理。

他们对这些像素描绘的 3D 世界没有天生的理解。

🦚 Florent 的注释:像素级智能和空间理解之间的差距并不是一个小不便。这是当前人工智能系统和最重要的物理世界应用之间的最大瓶颈:导航仓库的机器人、绕障碍物规划的自动驾驶车辆以及准确反映真实建筑物的数字双胞胎。

在本文中,我分解了目前正在融合的三个人工智能层,使普通照片的空间理解成为可能。

我展示了几何融合(没人谈论的层)如何将嘈杂的每图像预测转化为连贯的 3D 场景标签,并且我分享了生产管道中的实数:3.5 倍的标签放大系数将 20% 的覆盖率变成了 78%。

如果您使用 3D 数据、点云或基础模型,这就是您一直缺少的难题。

没人谈论的 3D 标注瓶颈

从照片重建 3D 几何图形目前已是一个已解决的问题。

运动结构管道二十多年来一直在匹配关键点和三角测量 3D 位置。像 Depth-Anything-3 这样的单目深度估计模型的出现意味着您现在可以从单个智能手机视频生成密集的 3D 点云,而无需任何专门的硬件。

几何图形就在那里。缺少的是意义。

这具体化如下: