机构名称:
¥ 1.0
强化学习问题通常涉及由多个子行动同时执行的大型动作空间,从而导致组合空间。在组合作用空间中学习,由于这些子行动之间的次级次数和依据的数量和依赖性的数量,因此很难在组合作用空间中学习。在离线设置中,这一挑战被有限和次优的数据加重了。当前用于组合空间中离线学习的方法通过假设亚行动独立性简化了问题。我们提出了分支值估计(BVE),该分支值估计有效地捕获了子表演的依赖性和尺度,通过学习在每个时间步中仅评估一小部分动作,从而捕获了大型组合空间。我们的实验表明,BVE OUT在一系列动作空间范围内执行最先进的方法。1