详细内容或原文请订阅后点击阅览
LatentVLA:自动驾驶的潜在推理模型
如果自然语言不是驾驶的最佳抽象怎么办?LatentVLA:自动驾驶的潜在推理模型一文首先出现在 Towards Data Science 上。
来源:走向数据科学中,我们讨论了 AlpamayoR1 (AR1),这是一种集成 VLM 作为推理主干的自动驾驶模型。它依赖于仔细收集的因果链数据集。对该数据集的训练使 AR1 能够用自然语言进行“推理”,以解决具有挑战性的驾驶情况。
但是,如果自然语言不是驾驶场景中推理的最佳支持怎么办?毕竟,当遇到需要立即反应的驾驶情况时,人类驾驶员通常会条件反射地采取行动,而不是“用语言一步步推理”。驾驶模型有什么替代方案?
在本文中,我们分解了 LatentVLA 架构,这是一种令人信服的反对基于语言的方法,不需要自然语言数据集,在潜在空间中执行推理并使用知识蒸馏来满足实时约束。
潜在行动学习
AR1 的成功很大程度上取决于因果链数据集,该数据集的收集需要工业规模的努力、精心设计的标记流程和广泛的验证。
相比之下,LatentVLA 采取了完全相反的方向:作者认为原始驾驶数据已经包含训练大型模型所需的结构,而自然语言本质上是有偏见的,很难与动作保持一致。此外,生成自然语言推理链的效率很低,因为某些标记对推理过程没有有意义的贡献(例如停用词)。
因此,他们引入了一种自我监督框架,用于预测小潜在空间中以自我为中心的潜在行为。换句话说,该模型使用未标记的驾驶数据来预测驾驶员必须采取哪些操作才能生成该数据。这些潜在动作将作为潜在空间推理的构建块。
表示学习
通过优化下一帧重建误差,我们联合训练 IDM 和 FDM 来编码预测离散动作表示。
VLM 培训
结果是:
