AlpamayoR1：自动驾驶的大型因果推理模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AlpamayoR1：自动驾驶的大型因果推理模型

2026年2月19日 13:30 33 Comments

关于因果链推理和自动驾驶现状您需要了解的一切！AlpamayoR1：自动驾驶的大型因果推理模型首先出现在《走向数据科学》上。

来源:走向数据科学

凭借其新的 AlpamayoR1 架构席卷了自动驾驶领域，该架构集成了大型视觉语言模型作为因果推理支柱。该版本连同新的大型数据集和逼真的驾驶模拟器，已使该公司成为 2026 年该领域的主要参与者之一。

在本文中，我们将详细介绍 AlpamayoR1 架构、因果推理链以及用于训练模型的复杂训练过程。

AlpamayoR1 (AR1) 的发布在当前端到端 (E2E) 架构范例中找到了背景。 E2E 模型旨在将原始感官输入（相机、LiDAR、雷达等）映射到完全可微架构中的轨迹，从而优化统一目标。

E2E 的新兴趋势涉及利用大型视觉语言模型 (VLM) 的广泛世界知识来解决复杂的驾驶情况。这通常涉及使用 VLM 作为推理支柱来告知未来的轨迹，或作为专家教师为较小的学生模型提供监督信号。

AR1 是推理 VLM 作为骨干方法的一个主要示例。尽管其规模巨大，但该架构针对实际部署进行了优化，并且在单个 BlackWell GPU 上运行的延迟为 99 毫秒或 10 赫兹，这被认为是出于安全原因的一般目标。在本节中，我们将详细介绍该架构及其众多创新。

AR1 以标记化相机源和自然语言指令的形式使用视觉和文本输入。对于性能而言，视觉编码器生成尽可能少的标记至关重要。

Cosmos-Reason 处理视觉和文本标记以及最近的自我历史（自我车辆过去的 x-y 位置和角度），以输出因果推理轨迹链，以告知未来的轨迹。

训练模型编码器输入参与者未来的支柱模型的因果过去的较小的原因的作为 E2E 推理运行的驾驶的轨迹模拟器 AR1 解码器架构用于训练指令的 AlpamayoR1 驾驶复杂的视觉数据集最近的视觉编码语言 VLM 模型端到端自动