更多的数据总是能带来更好的性能吗?

通过试验样本大小、属性集和模型复杂性之间的相互作用,探索和挑战“更多数据 → 更好性能”的传统智慧。帖子“更多数据总是会产生更好的性能吗?”首先出现在《走向数据科学》上。

来源:走向数据科学

在数据科学中,当我们拟合手头的数据时,我们努力改善模型不太理想的性能。我们尝试各种技术,从改变模型复杂性到数据处理和预处理。然而,通常情况下,我们被建议“只是”获取更多数据。除了说起来容易做起来难之外,也许我们应该停下来质疑一下传统观点。换句话说,

“只是” ,
添加更多数据是否总能带来更好的性能?
始终

在本文中,让我们使用真实数据和我为此类查询构建的工具来测试这句格言。我们将阐明与数据收集和扩展相关的微妙之处,挑战这种努力会自动提高性能的观念,并呼吁采取更加谨慎和战略性的实践。

更多数据意味着什么?

让我们首先定义一下“更多数据”的确切含义。在最一般的情况下,我们通常将数据想象为表格。当提出获取更多数据的想法时,首先想到的是向数据框添加更多行(即更多数据点或样本)。

添加更多行

但是,另一种方法是添加更多列(即更多属性或功能)。第一种方法垂直扩展数据,而第二种方法水平扩展数据。

添加更多列

接下来我们将考虑这两种方法的共性和特殊性。

可以通过添加更多样本或更多列来扩展数据。 (图片由作者提供)

案例 1:更多样本

让我们考虑第一种添加更多样本的情况。添加更多样本是否一定会提高模型性能?

必然 作为 HuggingFace 空间托管的工具 UCI 欧文分校 – 预测学生的辍学和学业成功

...

特征/深度/样本浏览器工具(作者使用 UCI 数据集生成的图像)
获取更多学生记录 性能波动不规律
  • 它们可能是错误的(即数据收集中的错误)
  • 偏向
  • 测试集本身可能有偏差...
  • 杂散模式 研究 性别 课程