Loading...
机构名称:
¥ 1.0

虽然最近的无模型增强学习(RL)方法已经证明了人类水平在游戏环境中的有效性,但它们在视觉导航等日常任务中的成功受到了限制,尤其是在很明显的外观变化下。此限制来自(i)样本效率不佳和(ii)对培训方案的过度效果。为了应对这些挑战,我们提出了一种世界模型,该模型使用(i)对比不受监督的学习和(ii)干预不变的统治者学习不变特征。学习世界动态的明确表示世界模型,提高样本效率,而对比度学习隐含地实施不变特征的学习,从而改善了概括。,随着对比的损失与世界模式的na'整合还不够好,因为基于世界模型的RL方法独立地优化表示表示和代理策略。为了克服这个问题,我们提出了一种干预 - 不变的正规剂,其形式是辅助任务,例如深度预测,图像DeNoising,图像分割等,以明确执行不变性以进行样式的干预。我们的方法优于当前基于最新的模型和不含模型的RL方法,并显着改善了IGIBSON基准测试中评估的分数范围内导航任务。仅使用视觉观察,我们进一步证明了我们的方法超过了最近的语言引导导航基础模型,这对于在计算功能有限的机器人上部署至关重要。最后,我们证明了我们提出的模型在吉布森基准上其感知模块的SIM到真实传输方面表现出色。

recore:正式化对比度表示世界模型

recore:正式化对比度表示世界模型PDF文件第1页

recore:正式化对比度表示世界模型PDF文件第2页

recore:正式化对比度表示世界模型PDF文件第3页

recore:正式化对比度表示世界模型PDF文件第4页

recore:正式化对比度表示世界模型PDF文件第5页

相关文件推荐