世界模型通过在环境中提供代理商的预测性表示,并使代理商能够推理未来并做出更明智的决定,从而在基于模型的增强学习(RL)中起着至关重要的作用。但是,仍然存在两个主要问题,限制了世界模型的应用。首先,当前方法通常仅使用特定于域的数据来训练世界模型,这使得概括地看不见的情况或适应环境中的变化具有挑战性。第二,在使用野生视频中训练世界模型时,很难定义动作。在这项工作中,我们通过从不同规模和大型现实世界的视频数据集中学习通用世界模型来解决这两个问题,并提取了潜在的动作。具体来说,我们的方法利用预先训练的视觉编码器将两个相邻帧的图像投射到状态中;然后,根据向量量化,将潜在作用提取到低维空间中;最后,使用潜在动作学习了动态功能。结果表明,在野外视频数据集中测试时,提出的通用世界模型可以成功提取任意相邻帧的潜在动作。此外,在适应看不见的环境时,仅对少量域内数据进行微调可以显着提高通用世界模型的准确性。
摘要 - 近年来,强化学习和进化学习表现出了控制人形机器人运动的巨大潜力。但是,这些方法通常会为特定任务创建模拟环境和奖励,从而产生了多种策略和限制功能的要求,以解决复杂和未知任务。为了克服这些问题,我们提出了一种新颖的方法,将对抗性模仿学习与大语言模型(LLMS)相结合。这种创新方法使代理商可以通过单个政策学习可重复使用的技能,并在LLMS的指导下解决零拍摄任务。特别是,我们利用LLM作为战略规划师,通过理解特定于任务的提示,将先前学到的技能应用于新颖的任务。这使机器人能够以序列执行指定的动作。为了改善我们的模型,我们合并了基于代码的向量量化,使代理可以生成合适的操作,以响应LLM的看不见的文本命令。此外,我们设计了一般的奖励功能,考虑了人形机器人的独特运动特征,确保代理模仿运动数据,同时保持目标取向,而无需其他指导方向方法或策略。据我们所知,这是第一个使用单个学习策略网络和LLM作为计划者来控制人形机器人的框架。广泛的实验表明,我们的方法在复杂的运动任务中表现出有效和适应性的能力。