Loading...
机构名称:
¥ 5.0

本文使用背面计划研究了一种新的基于模型的强化学习方法:混合(近似)动态编程更新和无模型更新,类似于DYNA架构。带有学习模型的背景计划通常比无模型的替代方案(例如Double DQN)差,即使前者使用的记忆和计算更大。基本问题是,学到的模拟可能是不准确的,并且经常会产生无效的状态,尤其是在迭代许多步骤时。在本文中,我们通过将背景计划限制为一组(摘要)子目标,并仅学习本地,子观念模型来避免这种限制。这种目标空间计划(GSP)方法在计算上更有效,自然地包含了时间抽象,以进行更快的长途径计划,并避免完全学习过渡动态。我们表明,我们的GSP算法可以从抽象空间中传播价值,以帮助各种基础学习者在不同的域中更快地学习显着的速度。关键字:基于模型的增强学习,时间抽象,计划

使用亚目标模型的目标空间计划

使用亚目标模型的目标空间计划PDF文件第1页

使用亚目标模型的目标空间计划PDF文件第2页

使用亚目标模型的目标空间计划PDF文件第3页

使用亚目标模型的目标空间计划PDF文件第4页

使用亚目标模型的目标空间计划PDF文件第5页

相关文件推荐

2024 年
¥1.0
2022 年
¥2.0
1900 年
¥18.0
2025 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥2.0
2025 年
¥1.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0