学习通才体现的代理,能够解决不同领域中的多种任务是一个长期存在的问题。强化学习(RL)很难扩大规模,因为它需要为每个任务进行复杂的奖励设计。相比之下,语言可以以更自然的方式指定任务。当前的基础视觉模型(VLMS)通常需要进行微调或其他适应性,这是由于显着的域间隙在实施情况下被采用的。但是,此类域中缺乏多模式数据代表了开发用于具体应用的基础模型的障碍。在这项工作中,我们通过介绍多模式基础世界模型来克服这些问题,能够将基础VLM的表示和对齐为RL的潜在生成世界模型的潜在空间,而无需任何语言注释。最终的代理学习框架GenRL允许人们通过视觉和/或语言提示指定任务,将其扎根在体现的域的动态中,并学习想象中的相应行为。通过机车和操纵域中的大规模多任务基准测试评估,GenRL可以通过语言和视觉提示来实现多任务概括。此外,通过引入无数据的政策学习策略,我们的方法为使用生成世界模型的基础政策学习奠定了基础。
主要关键词