我们介绍了动态上下文Markov Deci-Sion过程(DCMDPS),这是一个新颖的增强学习框架,用于与历史有关的环境,该框架概括了上下文的MDP框架来处理非Markov环境,其中上下文随时间而变化。我们考虑了模型的特殊情况,重点关注dcmdps,这通过利用粒子函数来确定上下文转换,从而破坏了对历史长度的指数性。这种特殊的结构使我们能够得出一种上层封闭的样式算法,我们为此建立了遗憾的界限。以我们的口感结果的启发,我们引入了一种基于模型的实用算法,用于在潜在空间中计划,并在历史依赖的特征上使用乐观态度。我们在推荐任务(使用Movielens数据)上演示了我们方法的效率,在该任务中,用户行为动态响应建议而演变。