Loading...
机构名称:
¥ 1.0

摘要:基于模型的规划对于提高强化学习 (RL) 中的样本效率和泛化能力大有裨益。我们表明,基于能量的模型 (EBM) 是一种很有前途的模型,可用于基于模型的规划。EBM 自然支持在给定起始和目标状态分布的情况下推断中间状态。我们提供了一种在线算法来训练 EBM,同时与环境交互,并表明 EBM 允许比相应的前馈网络更好的在线学习。我们进一步表明,EBM 支持最大熵状态推断,并且能够生成不同的状态空间计划。我们表明,纯粹在状态空间中进行推断(没有规划动作)可以更好地泛化到环境中以前看不见的障碍物,并防止规划者通过应用非典型动作序列来利用动态模型。最后,我们表明,在线 EBM 训练自然会导致有意计划的状态探索,其表现明显优于随机探索。

基于能量的模型规划

基于能量的模型规划PDF文件第1页

基于能量的模型规划PDF文件第2页

基于能量的模型规划PDF文件第3页

基于能量的模型规划PDF文件第4页

基于能量的模型规划PDF文件第5页

相关文件推荐

2020 年
¥2.0
2025 年
¥1.0
2020 年
¥1.0
2021 年
¥10.0
2022 年
¥4.0
2022 年
¥1.0
2023 年
¥1.0
2023 年
¥1.0
2023 年
¥3.0
2024 年
¥1.0
2020 年
¥5.0
2020 年
¥1.0
2020 年
¥8.0
2020 年
¥12.0
2022 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2021 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2022 年
¥1.0