在增强学习中塑造稀疏的奖励
机构名称:
¥ 1.0

在许多现实世界中,代理商的奖励信号非常稀疏,这使得学习有效的奖励功能以进行奖励构成挑战。为了解决这个问题,我们的方法不仅可以通过非零奖励过渡,而且还采用半监督学习(SSL)技术(SSL)技术以及新的数据增强来学习轨迹空间代表性,从大多数过渡,从而提高奖励奖励Shaping Shaping shaping shaping shaping shaping shaping。Atari和机器人操作中的实验结果表明,我们的方法有效地将奖励概括为稀疏的奖励场景,与好奇心驱动的方法相比,达到更高的最佳分数表现。拟议的双熵数据增强增强了性能,显示出比其他增强方法的最佳分数提高15.8%。

在增强学习中塑造稀疏的奖励

在增强学习中塑造稀疏的奖励PDF文件第1页

在增强学习中塑造稀疏的奖励PDF文件第2页

在增强学习中塑造稀疏的奖励PDF文件第3页

在增强学习中塑造稀疏的奖励PDF文件第4页

在增强学习中塑造稀疏的奖励PDF文件第5页

相关文件推荐

通过增强学习
1900 年
¥1.0
增强学习
2024 年
¥5.0
逆增强学习
2019 年
¥3.0
离线增强学习
2024 年
¥7.0
增强学习中的评估
2024 年
¥7.0
进化增强学习
2024 年
¥1.0
技术增强学习
2023 年
¥1.0
竞争学习生成稀疏
2023 年
¥1.0