详细内容或原文请订阅后点击阅览
更多的数据总是能带来更好的性能吗?
通过试验样本大小、属性集和模型复杂性之间的相互作用,探索和挑战“更多数据 → 更好性能”的传统智慧。帖子“更多数据总是会产生更好的性能吗?”首先出现在《走向数据科学》上。
来源:走向数据科学在数据科学中,当我们拟合手头的数据时,我们努力改善模型不太理想的性能。我们尝试各种技术,从改变模型复杂性到数据处理和预处理。然而,通常情况下,我们被建议“只是”获取更多数据。除了说起来容易做起来难之外,也许我们应该停下来质疑一下传统观点。换句话说,
“只是” ,添加更多数据是否总能带来更好的性能?始终
在本文中,让我们使用真实数据和我为此类查询构建的工具来测试这句格言。我们将阐明与数据收集和扩展相关的微妙之处,挑战这种努力会自动提高性能的观念,并呼吁采取更加谨慎和战略性的实践。
更多数据意味着什么?
让我们首先定义一下“更多数据”的确切含义。在最一般的情况下,我们通常将数据想象为表格。当提出获取更多数据的想法时,首先想到的是向数据框添加更多行(即更多数据点或样本)。
添加更多行但是,另一种方法是添加更多列(即更多属性或功能)。第一种方法垂直扩展数据,而第二种方法水平扩展数据。
添加更多列接下来我们将考虑这两种方法的共性和特殊性。
案例 1:更多样本
让我们考虑第一种添加更多样本的情况。添加更多样本是否一定会提高模型性能?
必然 作为 HuggingFace 空间托管的工具 UCI 欧文分校 – 预测学生的辍学和学业成功...
