LatentVLA：自动驾驶的潜在推理模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

LatentVLA：自动驾驶的潜在推理模型

2026年3月8日 13:00 33 Comments

如果自然语言不是驾驶的最佳抽象怎么办？LatentVLA：自动驾驶的潜在推理模型一文首先出现在 Towards Data Science 上。

来源:走向数据科学

中，我们讨论了 AlpamayoR1 (AR1)，这是一种集成 VLM 作为推理主干的自动驾驶模型。它依赖于仔细收集的因果链数据集。对该数据集的训练使 AR1 能够用自然语言进行“推理”，以解决具有挑战性的驾驶情况。

但是，如果自然语言不是驾驶场景中推理的最佳支持怎么办？毕竟，当遇到需要立即反应的驾驶情况时，人类驾驶员通常会条件反射地采取行动，而不是“用语言一步步推理”。驾驶模型有什么替代方案？

在本文中，我们分解了 LatentVLA 架构，这是一种令人信服的反对基于语言的方法，不需要自然语言数据集，在潜在空间中执行推理并使用知识蒸馏来满足实时约束。

AR1 的成功很大程度上取决于因果链数据集，该数据集的收集需要工业规模的努力、精心设计的标记流程和广泛的验证。

相比之下，LatentVLA 采取了完全相反的方向：作者认为原始驾驶数据已经包含训练大型模型所需的结构，而自然语言本质上是有偏见的，很难与动作保持一致。此外，生成自然语言推理链的效率很低，因为某些标记对推理过程没有有意义的贡献（例如停用词）。

因此，他们引入了一种自我监督框架，用于预测小潜在空间中以自我为中心的潜在行为。换句话说，该模型使用未标记的驾驶数据来预测驾驶员必须采取哪些操作才能生成该数据。这些潜在动作将作为潜在空间推理的构建块。

通过优化下一帧重建误差，我们联合训练 IDM 和 FDM 来编码预测离散动作表示。

结果是：

设计的 LatentVLA 数据集联合训练推理收集的相反的预测表示所需的动作语言的使用因果语言数据模型驾驶员中心的自然语言 VLM 数据反应的需要广泛的驾驶 AR1 空间潜在停用词标记的替代方案