详细内容或原文请订阅后点击阅览

用于物理推理和行动的高级人工智能

2025年10月2日 09:00 33 Comments

Google DeepMind 推出了 Gemini Robotics，这是一种人工智能系统，允许机器人“先思考后行动”，规划复杂的任务，甚至在不同类型的机器人之间转移技能。凭借先进的推理、安全功能和跨实体学习，机器人变得真正智能。

来源:Qudata

用于物理推理和动作的高级AI

Google DeepMind开发了Gemini Robotics，这是一种AI模型，旨在为机器人带来复杂的推理和动作能力。这些系统建立在双子座基础模型的基础上，结合了视觉，语言和电动机控制，以实现多步骤的通用物理任务。

Google DeepMind开发了Gemini Robotics

双子座机器人技术由两个互补模型组成：

Gemini Robotics-ER 1.5（体现推理，ER） - 一种视觉模型（VLM），用于在物理环境中进行计划和推理。它可以解释视觉和文本输入，创建多步骤任务计划，并可以将数字工具（例如Google Search或第三方API）拨打来收集相关数据。 ER模型充当高级计划者，生成了自然语言指令，可以通过复杂的序列引导机器人。GeminiRobotics 1.5（Vision-Language-Action，VLA） - 一种视觉语言行动模型，将擦拭性指令转换为精确的电机命令。与传统的VLA模型不同，它结合了内部推理循环，使机器人可以“思考”每个步骤，分段复杂的任务，并根据环境反馈调整操作。

Gemini Robotics-ER 1.5（体现推理，ER） - 一种视觉模型（VLM），用于在物理环境中进行计划和推理。它可以解释视觉和文本输入，创建多步骤任务计划，并可以将数字工具（例如Google Search或第三方API）拨打来收集相关数据。 ER模型充当高级规划师，生成了自然语言指令，可以通过复杂的序列引导机器人。

Google AI Studio

推理视觉模型复杂的视觉 ER 动作的物理高级计划模型 Google 反馈调整 1.5 输入引导机指令模型的 Robotics 环境步骤 Gemini 计划者任务计划第三方精确的根据机器人电动机数据传统的

用于物理推理和行动的高级人工智能

用于物理推理和动作的高级AI

其他外部链接

Tags

XiaoMi-AI