Cosmos 3 如何帮助物理人工智能先思考再行动 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Cosmos 3 如何帮助物理人工智能先思考再行动

2026年6月1日 04:45 33 Comments

无

来源:NVIDIA 博客 _机器人技术

现实世界总是在运动。为了实现自主运行，物理人工智能系统——包括机器人、自动驾驶汽车（AV）和智能空间——不仅需要了解它们所看到的内容以及导致这种情况发生的原因，还需要了解接下来可能发生的情况。

在仓库中，机器人可能会遇到以前从未见过的对象配置。在道路上，当行人从停放的汽车之间走出时，自动驾驶汽车可能需要做出响应。在工厂中，安全系统必须预测叉车的行驶方向，而不仅仅是检测叉车是否在那里。

在现实世界中捕捉和重现这些场景是缓慢、昂贵的，而且通常不可能大规模重复。

NVIDIA Cosmos 3 就是为此循环而构建的。今天在台北电脑展上的 NVIDIA GTC 上宣布的新世界基础模型将视觉推理和跨文本、视频、图像、环境声音和动作的多模态生成结合在一个模型中，以帮助开发人员创建具有物理背景的世界数据。

Cosmos 3 为感知、预测和行动提供动力。

详细了解 Cosmos 3 的混合变压器架构如何使推理块首先解释场景中发生的情况，然后利用生成块使用该上下文创建物理接地输出（从合成视频到机器人任务数据）。

Cosmos 3 是一个基于各种数据进行训练的通用基础模型，使其能够广泛了解场景、运动和机器人动作之间的关系。它是一种具有原生动作生成功能的全向模型，这意味着它可以生成数字动作数据，例如关节角度、夹具位置和轨迹点，这些数据描述了机器人应如何移动才能完成任务。

NVIDIA GEAR

团队正在使用 Cosmos 3 开发视频动作模型，帮助实体代理学习如何在游戏、模拟和真实机器人环境中推理、移动和行动。

音频提示：将所有香蕉放在盘子上。

世界的人工智能空间的模型叉车意味着全系统汽车数据 NVIDIA 任务数据推理机器人训练的 Cosmos 动作的动作变压器背景的开发人员生成关节完成任务功能的场景大规模行驶方向安全系统可能需要昂贵的物理