Loading...
机构名称:
¥ 1.0

强化学习的实际应用中的主要障碍之一是模拟和实际真实环境之间的差异。因此,在模拟环境中训练的政策可能无法在现实世界中产生预期的行动,这是由于噪声,建模不准确和不同环境条件等因素。为了减轻此问题,强大的马尔可夫决策过程(RMDPS)框架集中于设计算法弹性,可弹性。在RMDP中,人们考虑了一个可能的过渡概率和奖励功能的家族,并选择了本集中最坏的案例过渡概率和奖励功能以进行策略优化。最近的研究表明,考虑策略的熵和差异可以捕获给定奖励功能的最坏情况。尽管引入了处理过渡概率的各种算法,但仍存在某些挑战。特别是,分布的支持可能是不一致的,在实际环境中未过渡的状态仍然可以分配非零过渡概率。在这项工作中,我们添加了有关软最佳策略的差异,并用KL差异术语替换了相对于名义环境的过渡概率,替换了最坏的案例过渡概率。可以解决RMDPS的挑战。

先端科学技术研究科修士论文要旨

先端科学技术研究科修士论文要旨PDF文件第1页

相关文件推荐

2025 年
¥1.0
2016 年
¥8.0
1900 年
¥8.0
2025 年
¥1.0
2024 年
¥1.0
2020 年
¥18.0
2019 年
¥8.0
2020 年
¥13.0
2013 年
¥28.0
2022 年
¥51.0
2025 年
¥1.0
2024 年
¥2.0
2025 年
¥8.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2023 年
¥23.0
2025 年
¥1.0
2024 年
¥1.0
2021 年
¥1.0
2025 年
¥2.0
2025 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0