50/50不是最佳的:揭穿甚至重新平衡

一种新的阶级不平衡理论表明,当二进制问题中的最佳训练失衡不是50%,当50/50不是最佳的帖子:揭穿甚至重新平衡的情况首先出现在数据科学上。

来源:走向数据科学

for Old挑战

您正在训练模型进行垃圾邮件检测。您的数据集比否定性更高,因此您花了无数小时的时间将其重新平衡至50/50。现在您感到满意,因为您能够解决班级失衡。如果我告诉你60/40不仅足够,而且更好?

在大多数机器学习分类应用程序中,一个类的实例数量超过其他类别的实例。这会减慢学习[1],并可能在训练有素的模型中引起偏见[2]。解决此问题的最广泛使用的方法取决于一个简单的处方:找到一种使所有类都相同的权重的方法。最常见的是,这是通过简单的方法来完成的,例如对少数群体示例(重新持续),从数据集中删除多数级示例(不足度采样)或包括少数族裔班级实例(超过一次)(过度采样)。

经常讨论这些方法的有效性,理论和经验工作表明哪种解决方案最有效取决于您的特定应用[3]。但是,很少讨论一个隐藏的假设,而且常常被认为是理所当然的:重新平衡甚至是一个好主意?在某种程度上,这些方法有效,因此答案是肯定的。但是我们应该完全重新平衡数据集吗?为了使其简单,让我们解决二进制分类问题。我们应该重新平衡培训数据以占每个班级的50%吗?直觉是“是”,直到到目前为止,直觉指导的实践。在这种情况下,直觉是错误的。出于直观的原因。

完全

“训练失衡”是什么意思?

n

ρ⁽ᵗʳᵃⁱⁿ⁾=n₀/n。

ρ

证据表明50%是次优

等。
作者的图像

为什么完美的平衡并不总是最好的

让我们假设数据来自多元高斯分布,并且我们将决策边界右侧的所有点标记为异常。在2D中,看起来像这样:

作者的图像,灵感来自[5]

参考

113