摘要。本文说明了损失功能在数据驱动决策中的核心作用,从而对其在成本敏感的分类(CSC)和增强学习(RL)方面提供了全面的调查。我们演示了不同的回归损失函数如何影响样本的效率和基于价值决策算法的适应性。在多个设置中,我们证明,使用二进制跨透镜损失的算法达到了最佳策略成本的第一阶范围,并且比常用的平方损失更有效。此外,我们证明,使用最大似然损失的分布算法与策略差异达到了二阶范围,甚至比一阶边界更明显。这特别证明了分歧RL的好处。我们希望本文能够成为分析具有不同损失功能的决策算法的指导,并可以激发读者寻求更好的损失功能,以改善任何决策算法。
主要关键词