物理人工智能的经济学:为什么数据质量胜过规模

为了达到物理 AI 社区所期望的鲁棒性水平,即在不熟悉的环境中对不熟悉的对象进行零样本部署的通才策略,数据集大小必须增长几个数量级。为了给出规模感,将逻辑扩展到 LLM 规模的数据量(大约 10^2)将需要大约 8000 万个机器人连续运行三年。 The field is therefore bottlenecked not only by compute or model architecture, but more fundamentally by the rate at which high-quality, real-world manipulation data can be generated.For a CFO or engineering leader, the implication is direct.前进的方向是提高每集的信息密度,而不是让更多的机器人运行更长时间。单个触觉增强轨迹比多个仅视觉运行携带更多的训练信号,特别是对于接触丰富和插入任务。

来源:Robotiq

为了达到物理 AI 社区所期望的鲁棒性水平,即在不熟悉的环境中对不熟悉的对象进行零样本部署的通才策略,数据集大小必须增长几个数量级。为了给出规模感,将逻辑扩展到 LLM 规模的数据量(大约 10^2)将需要大约 8000 万个机器人连续运行三年。因此,该领域的瓶颈不仅在于计算或模型架构,更根本的是在于生成高质量、真实世界的操作数据的速度。

对于首席财务官或工程领导者来说,含义是直接的。前进的方向是提高每集的信息密度,而不是让更多的机器人运行更长时间。单个触觉增强轨迹比多个仅视觉运行携带更多的训练信号,特别是对于接触丰富和插入任务。

为什么仅靠规模就超出了预算

物理人工智能没有互联网可供抓取。最大的开放式真实机器人数据集 Open X-Embodiment 聚合了来自 34 个实验室的约 100 万集。1 DROID 需要 50 名操作员、18 名机器人和 12 个月的时间来组装 76,000 条轨迹。² 物理智能的 π0(可以说是迄今为止最强大的开放通才政策)在微调之前需要超过 10,000 小时的远程操作数据。³ 这些努力是令人敬畏,但相对于真正的泛化要求而言,仍然小了几个数量级。

如果数量是唯一的杠杆,那么数据收集成本会随着车队规模和运营时间呈线性增长。乘以 10,000 个机器人,在训练单个模型之前,资本支出就高达数亿美元。

机器人每小时的感知能力会成倍增加

这对预算意味着什么

与我们的技术团队讨论用于您的操作管道的传感器集成,并了解有关 Robotiq 如何支持您的应用程序的更多信息。

² DROID,arXiv:2403.12945。

⁶ 视频触觉动作模型 (VTAM),arXiv:2603.23481。