在线学习中的有效探索(AAAI 最佳论文亚军、IJCAI)行星健康问题通常是空间规划问题,其中每个动作都是特定于上下文的,对应于地球上的物理区域。与每个动作相关的地理特征使我们能够使用平滑度假设来关联动作。例如在野生动物保护中,我们预计具有相似地理特征的地区也会有相似的偷猎模式。从数学上讲,我们可以将两个动作的奖励中的这种相似性编码为 Lipschitz 连续性。此外,每个动作(巡逻一组区域)在区域数量上是组合的,但可以分成具有附加、可分解奖励的构成区域。因此,我们引入了一种新的多臂老虎机变体,该变体结合了可分解性和平滑性,在这些奖励估计上强制实施 Lipschitz 连续性假设,以实现明显更快的收敛 [3]。我们表明,这种方法可以改善遗憾界限,并且不依赖于区域数量 N ,与最先进的 ˜ O ( T
主要关键词