更多的数据总是能带来更好的性能吗？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

更多的数据总是能带来更好的性能吗？

2025年11月10日 18:47 33 Comments

通过试验样本大小、属性集和模型复杂性之间的相互作用，探索和挑战“更多数据 → 更好性能”的传统智慧。帖子“更多数据总是会产生更好的性能吗？”首先出现在《走向数据科学》上。

来源:走向数据科学

在数据科学中，当我们拟合手头的数据时，我们努力改善模型不太理想的性能。我们尝试各种技术，从改变模型复杂性到数据处理和预处理。然而，通常情况下，我们被建议“只是”获取更多数据。除了说起来容易做起来难之外，也许我们应该停下来质疑一下传统观点。换句话说，

“只是” ,

添加更多数据是否总能带来更好的性能？

始终

在本文中，让我们使用真实数据和我为此类查询构建的工具来测试这句格言。我们将阐明与数据收集和扩展相关的微妙之处，挑战这种努力会自动提高性能的观念，并呼吁采取更加谨慎和战略性的实践。

让我们首先定义一下“更多数据”的确切含义。在最一般的情况下，我们通常将数据想象为表格。当提出获取更多数据的想法时，首先想到的是向数据框添加更多行（即更多数据点或样本）。

添加更多行

但是，另一种方法是添加更多列（即更多属性或功能）。第一种方法垂直扩展数据，而第二种方法水平扩展数据。

添加更多列

接下来我们将考虑这两种方法的共性和特殊性。

可以通过添加更多样本或更多列来扩展数据。（图片由作者提供）

让我们考虑第一种添加更多样本的情况。添加更多样本是否一定会提高模型性能？

必然作为 HuggingFace 空间托管的工具 UCI 欧文分校 – 预测学生的辍学和学业成功

...

特征/深度/样本浏览器工具（作者使用 UCI 数据集生成的图像） 获取更多学生记录 性能波动不规律

它们可能是错误的（即数据收集中的错误）

假偏向

测试集本身可能有偏差...

杂散模式 研究性别课程

集中的高性能的错误的两种方法相关的提高模型性能意味着数据处理提高性能 UCI 数据数据集作者数据点不规律特殊性工具一般的预处理多列数据收集方法添加获取复杂性扩展高性能学生多样 ...