回归的全预测器和凸函数的近似等级

考虑监督学习设置,其目标是学习根据分布中的点 x 预测标签 y。损失函数类 L 和假设类 C 的全能预测器是这样的预测器,对于 L 中的每个损失,其预测的预期损失小于 C 中的最佳假设。自从 [GKR+21] 的工作引入这一概念以来,在 y∈{0,1} 的二元标签设置中已经有大量工作,但对于 y∈[0,1] 可以是连续的回归设置,人们知之甚少。我们的主要概念贡献是充分的概念……

来源:Apple机器学习研究

考虑监督学习设置,其目标是学习根据分布中的点 x 预测标签 y。损失函数类 L 和假设类 C 的全能预测器是这样的预测器,对于 L 中的每个损失,其预测产生的预期损失小于 C 中的最佳假设。自从 [GKR+21] 的工作引入这一概念以来,在 y∈{0,1} 的二元标签设置中已经有大量工作,但对于 y∈[0,1] 可以是连续的回归设置,人们知之甚少。我们的主要概念贡献是损失函数族损失最小化的充分统计数据概念:这些是一组关于分布的统计数据,了解它们可以采取行动,最小化族中任何损失的预期损失。充分统计数据的概念与损失函数族的近似秩直接相关。

我们的关键技术贡献是凸 Lipschitz 函数在区间 [0,1] 上的 ϵ 近似秩的 O(1/ε^{2/3}) 界限,我们表明该界限紧至 polylog(1/ϵ) 的因子。这为在对 C 类的弱可学习性假设下学习所有凸 Lipschitz 损失函数类的全能预测器提供了改进的运行时间。当损失系列具有低阶多项式近似或来自广义线性模型 (GLM) 时,我们还给出了有效的全能预测器。通过将 [GKH+23] 为布尔标签引入的损失结果不可区分技术提升到回归设置,可以从充分统计数据到更快的全能预测器。