Loading...
机构名称:
¥ 1.0

本文在关系,非平稳的随机环境中介绍了一种持续计划和模型学习的新方法。这种功能对于在不确定和不断发展的现实世界中的连续决策系统的部署至关重要。在此类实践环境中工作,具有未知(和非平稳)过渡系统和不断变化的任务,所提出的框架模型模型差距在代理人的当前知识状态中,并使用它们来进行集中,调查的探索。使用这些探索收集的数据用于学习可概括的概率模型,用于解决当前任务,尽管环境动力学发生了持续变化。在几个非平稳基准领域上的经验评估表明,这种方法在样本复杂性方面显着优于计划和RL基准。理论结果表明,当平稳性保持时,该系统表现出理想的收敛性。

认识性探索可概括的计划和...

认识性探索可概括的计划和...PDF文件第1页

认识性探索可概括的计划和...PDF文件第2页

认识性探索可概括的计划和...PDF文件第3页

认识性探索可概括的计划和...PDF文件第4页

认识性探索可概括的计划和...PDF文件第5页