战略线性上下文老虎机

受战略代理操纵推荐系统以最大化向用户推荐的次数这一现象的启发,我们研究了线性上下文强盗问题的一个战略变体,其中手臂战略性地向学习者错误报告私下观察到的上下文。% 在战略背景操纵下。我们将算法设计问题视为不确定性下的 \emph{机制设计} 问题之一,并提出了乐观严峻触发机制 (OptGTM),该机制可最大限度地减少遗憾,同时激励代理大致诚实。我们表明……

来源:Apple机器学习研究

受策略代理利用推荐系统来最大化向用户推荐的次数这一现象的启发,我们研究了线性情境老虎机问题的一种策略变体,其中代理策略性地向学习者错误报告私下观察到的情境。% 在策略情境操纵下。我们将算法设计问题视为不确定性下的 \emph{机制设计} 问题之一,并提出了乐观严峻触发机制 (OptGTM),该机制可最大限度地减少遗憾,同时激励代理大致诚实。我们表明,尽管代理通过错误报告情境来利用学习算法的能力不受限制,但 OptGTM 仍实现了亚线性遗憾。然后,我们还表明,未能考虑代理的战略性质会导致线性遗憾。然而,激励兼容性和遗憾最小化之间的权衡是不可避免的。更广泛地说,这项工作为在线学习和机制设计的交集提供了见解。