摘要。基于模型的强化学习学习以学习决策的最新技术是通过建立有关环境染色体的世界模型来做出决策的。世界模型学习需要与真实环境进行广泛的互动。因此,从大规模视频中提出的几种创新方法,例如APV提出了无监督的预先培训模型,从而使更少的交互作用可以很好地调整世界模型。但是,这些方法仅将世界模型作为一个没有动作条件的视频预测模型预先训练,而最终世界模型则是动作条件。此差距限制了无监督的预训练的有效性,以增强世界模型的能力。为了进一步释放无监督的预训练的潜力,我们引入了一种方法,该方法可以预先培训世界模型,但可以从无动作视频中使用,但具有可学习的动作表示(PRELAR)。特定的是,两个相邻时间步骤的观察结果被编码为一种不断的动作表示,世界模型被预先训练为行动条件。为了使隐式动作表示更接近真实的行动,动作状态的一致性损失旨在自我监督其优化。在微调过程中,实际动作被编码为训练整个世界模型的下游任务的动作表示形式。从元世界仿真环境中对各种视觉控制任务进行了评估。代码可以在https://github.com/zhanglixuan0720/prelar结果表明,拟议的预赛显着提高了世界模型学习中的样本效率,证明了在世界模型预训练中进行不合转行动的必要性。
主要关键词