Loading...
机构名称:
¥ 1.0

世界模型通过在环境中提供代理商的预测性表示,并使代理商能够推理未来并做出更明智的决定,从而在基于模型的增强学习(RL)中起着至关重要的作用。但是,仍然存在两个主要问题,限制了世界模型的应用。首先,当前方法通常仅使用特定于域的数据来训练世界模型,这使得概括地看不见的情况或适应环境中的变化具有挑战性。第二,在使用野生视频中训练世界模型时,很难定义动作。在这项工作中,我们通过从不同规模和大型现实世界的视频数据集中学习通用世界模型来解决这两个问题,并提取了潜在的动作。具体来说,我们的方法利用预先训练的视觉编码器将两个相邻帧的图像投射到状态中;然后,根据向量量化,将潜在作用提取到低维空间中;最后,使用潜在动作学习了动态功能。结果表明,在野外视频数据集中测试时,提出的通用世界模型可以成功提取任意相邻帧的潜在动作。此外,在适应看不见的环境时,仅对少量域内数据进行微调可以显着提高通用世界模型的准确性。

从大规模和多样的视频中学到的通用世界模型

从大规模和多样的视频中学到的通用世界模型PDF文件第1页

从大规模和多样的视频中学到的通用世界模型PDF文件第2页

从大规模和多样的视频中学到的通用世界模型PDF文件第3页

从大规模和多样的视频中学到的通用世界模型PDF文件第4页

从大规模和多样的视频中学到的通用世界模型PDF文件第5页