Loading...
机构名称:
¥ 4.0

我们介绍了动态上下文Markov Deci-Sion过程(DCMDPS),这是一个新颖的增强学习框架,用于与历史有关的环境,该框架概括了上下文的MDP框架来处理非Markov环境,其中上下文随时间而变化。我们考虑了模型的特殊情况,重点关注dcmdps,这通过利用粒子函数来确定上下文转换,从而破坏了对历史长度的指数性。这种特殊的结构使我们能够得出一种上层封闭的样式算法,我们为此建立了遗憾的界限。以我们的口感结果的启发,我们引入了一种基于模型的实用算法,用于在潜在空间中计划,并在历史依赖的特征上使用乐观态度。我们在推荐任务(使用Movielens数据)上演示了我们方法的效率,在该任务中,用户行为动态响应建议而演变。

使用与历史有关的动态上下文的增强学习

使用与历史有关的动态上下文的增强学习PDF文件第1页

使用与历史有关的动态上下文的增强学习PDF文件第2页

使用与历史有关的动态上下文的增强学习PDF文件第3页

使用与历史有关的动态上下文的增强学习PDF文件第4页

使用与历史有关的动态上下文的增强学习PDF文件第5页

相关文件推荐

2021 年
¥5.0
2025 年
¥2.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2021 年
¥1.0
2021 年
¥3.0
2023 年
¥1.0
2024 年
¥2.0
2023 年
¥2.0
1900 年
¥1.0
2024 年
¥5.0
2019 年
¥3.0