使用先前部署的策略记录的数据评估新的排名策略需要一个反事实(非政策)估计器,以纠正演示和选择偏见。某些估计器(例如,基于位置的模型)通过对用户行为做出有力的假设来执行此校正,如果不满足假设,这可能会导致高偏差。其他估计器(例如,项目位置模型)依靠随机化来避免这些假设,但它们通常会遭受较高的差异。在本文中,我们开发了一种称为Interpol的新的反事实估计器,该估计器在其做出的假设中提供了可调节的权衡,从而提供了优化偏见差异权衡的新颖能力。我们在理论上和经验上分析了估计量的偏差,并表明它在合成数据集上都比基于位置模型和项目位置模型的误差较低。准确性的提高不仅使排名策略的离线评估受益,而且我们还发现,当用作学习级别的培训目标时,Interpol会改善对新排名政策的学习。
主要关键词