2023 年机器人 LLM 的发展最让我们感到意外,例如 PalM-E 和 RT-2 的推出,以及特斯拉开发人形机器人的端到端 AI 方法。当今所有机器人 LLM 的基石都是谷歌的 Transformer 模型,该模型自 2017 年开始开发,引入了一种基于自注意力机制的新型神经网络架构。基于 Transformer 模型结构,谷歌继续开发了三类模型:1)PaLM(Pathways Language Model),专注于文本内容分析和生成;2)ViT(Vision Transformer)和 PaLI(Pathways Language and Image Model),结合文本和图像的分析、转换和推理;3)RT(Robot Transformer),使用标记化的输入和输出连接输入命令和机器人输出控制。三种模型通过技术路径演化为PaLM-E、PaLI-X和RT-1,而谷歌通过PaLM-E & PaLI-X进行数据训练、RT-1进行微调,在2023年7月推出了RT-2。RT-2借助PaLM-E和PaLI-X的多模态分析能力,能够处理自然语言指令、通过视觉分析任务场景;借助RT-1的运动数据库和标记化数据处理技术,能够控制机器人执行任务。RT-2的端到端AI能力基于机器人运动数据库,谷歌花了1.5年时间收集数据,因此RT模型的研发周期比其他两种模型更长。RT-2 发布后,国内部分机器人企业也纷纷推出自己的机器人 LLM,而我们认为,目前大部分国内人形机器人厂商的 AI 能力都是基于开源机器人 LLM(大型语言模型)开发的,比如 OpenAI、Meta 和 Google Deepmind 等。
主要关键词