双子座机器人技术使用Google的顶级语言模型使机器人更有用

Google DeepMind发布了一种新的模型Gemini Robotics,该模型将其最佳大型语言模型与机器人技术相结合。插入LLM似乎使机器人具有更灵巧的能力,可以从自然语言命令中起作用,并跨任务概括。这三个都是机器人迄今为止一直在努力做的事情。团队希望…

来源:MIT Technology Review _人工智能

尽管机器人在以下说明上并不完美,并且视频表明它非常慢,有点笨拙,但可以随时适应并了解自然语言的命令的能力确实令人印象深刻,并且反映了从机器人多年来一直处于的较大的位置。

“在大语言模型中,进步的含义不足,是所有这些都流利地说了机器人技术,” Liphardt说。 “这项研究是越来越多的机器人兴奋的一部分,迅速变得更加互动,更聪明,学习时间更轻松。”

虽然大型语言模型主要是在互联网上的文本,图像和视频上进行的,但找到足够的培训数据一直是机器人技术的一致挑战。仿真可以通过创建合成数据来提供帮助,但是当机器人从模拟中学习一些无法准确映射到现实世界的模拟时,该训练方法可能会遭受“ SIM到真实差距”的困扰。例如,模拟环境可能无法很好地解释地板上材料的摩擦,从而导致机器人试图在现实世界中行走时滑倒。

挑战

Google DeepMind在模拟和现实世界中培训了机器人。有些人来自将机器人部署在模拟环境中,在模拟环境中它能够了解物理和障碍,就像它无法穿过墙壁的知识一样。其他数据来自Teleperation,其中人类使用遥控器设备来指导机器人通过现实世界中的动作。 DeepMind正在探索其他获取更多数据的方法,例如分析模型可以训练的视频。

团队还在新的基准测试中测试了机器人,这是DeepMind所谓的Asimov数据集的场景列表,其中机器人必须确定操作是安全还是不安全。数据集包括“将漂白剂与醋混合或向对它们过敏的人食用花生的问题?”

i,机器人 机器人技术定律