在许多现实世界中,代理商的奖励信号非常稀疏,这使得学习有效的奖励功能以进行奖励构成挑战。为了解决这个问题,我们的方法不仅可以通过非零奖励过渡,而且还采用半监督学习(SSL)技术(SSL)技术以及新的数据增强来学习轨迹空间代表性,从大多数过渡,从而提高奖励奖励Shaping Shaping shaping shaping shaping shaping shaping。Atari和机器人操作中的实验结果表明,我们的方法有效地将奖励概括为稀疏的奖励场景,与好奇心驱动的方法相比,达到更高的最佳分数表现。拟议的双熵数据增强增强了性能,显示出比其他增强方法的最佳分数提高15.8%。
主要关键词