详细内容或原文请订阅后点击阅览
用于物理推理和行动的高级人工智能
Google DeepMind 推出了 Gemini Robotics,这是一种人工智能系统,允许机器人“先思考后行动”,规划复杂的任务,甚至在不同类型的机器人之间转移技能。凭借先进的推理、安全功能和跨实体学习,机器人变得真正智能。
来源:Qudata用于物理推理和动作的高级AI
Google DeepMind开发了Gemini Robotics,这是一种AI模型,旨在为机器人带来复杂的推理和动作能力。这些系统建立在双子座基础模型的基础上,结合了视觉,语言和电动机控制,以实现多步骤的通用物理任务。
Google DeepMind开发了Gemini Robotics双子座机器人技术由两个互补模型组成:
- Gemini Robotics-ER 1.5(体现推理,ER) - 一种视觉模型(VLM),用于在物理环境中进行计划和推理。它可以解释视觉和文本输入,创建多步骤任务计划,并可以将数字工具(例如Google Search或第三方API)拨打来收集相关数据。 ER模型充当高级计划者,生成了自然语言指令,可以通过复杂的序列引导机器人。GeminiRobotics 1.5(Vision-Language-Action,VLA) - 一种视觉语言行动模型,将擦拭性指令转换为精确的电机命令。与传统的VLA模型不同,它结合了内部推理循环,使机器人可以“思考”每个步骤,分段复杂的任务,并根据环境反馈调整操作。
