详细内容或原文请订阅后点击阅览
Cosmos 3 如何帮助物理人工智能先思考再行动
无
来源:NVIDIA 博客 _机器人技术现实世界总是在运动。为了实现自主运行,物理人工智能系统——包括机器人、自动驾驶汽车(AV)和智能空间——不仅需要了解它们所看到的内容以及导致这种情况发生的原因,还需要了解接下来可能发生的情况。
在仓库中,机器人可能会遇到以前从未见过的对象配置。在道路上,当行人从停放的汽车之间走出时,自动驾驶汽车可能需要做出响应。在工厂中,安全系统必须预测叉车的行驶方向,而不仅仅是检测叉车是否在那里。
在现实世界中捕捉和重现这些场景是缓慢、昂贵的,而且通常不可能大规模重复。
NVIDIA Cosmos 3 就是为此循环而构建的。今天在台北电脑展上的 NVIDIA GTC 上宣布的新世界基础模型将视觉推理和跨文本、视频、图像、环境声音和动作的多模态生成结合在一个模型中,以帮助开发人员创建具有物理背景的世界数据。
Cosmos 3 为感知、预测和行动提供动力。
详细了解 Cosmos 3 的混合变压器架构如何使推理块首先解释场景中发生的情况,然后利用生成块使用该上下文创建物理接地输出(从合成视频到机器人任务数据)。
为现实世界的机器人任务生成动作数据
Cosmos 3 是一个基于各种数据进行训练的通用基础模型,使其能够广泛了解场景、运动和机器人动作之间的关系。它是一种具有原生动作生成功能的全向模型,这意味着它可以生成数字动作数据,例如关节角度、夹具位置和轨迹点,这些数据描述了机器人应如何移动才能完成任务。
NVIDIA GEAR
团队正在使用 Cosmos 3 开发视频动作模型,帮助实体代理学习如何在游戏、模拟和真实机器人环境中推理、移动和行动。音频提示:将所有香蕉放在盘子上。
