数据删除的四种观点

数据集的理论在哪里?将数据集拆分为训练数据和测试数据的典型模型允许统计有效性来评估模型性能。然而,在现实世界中,通常不仅要考虑一个数据源,还要考虑许多不同的数据源;训练集的构建和处理远非易事。一方面,特定应用的定制数据可能非常有限或根本不可用。另一方面,使用所有可能的数据源也可能导致大量问题,包括分布不匹配和数据质量下降。鉴于不同数据源的质量、大小和组成可能有所不同;目前尚不清楚数据管理如何影响下游模型性能。最近的一系列实证研究已经针对各种类型的模型和下游任务研究和优化了数据组合。然而,在对不同数据组合场景的理论属性进行建模和分析方面的工作有限。数据管理是一个难题,因为最佳数据组合的搜索空间很大。迄今为止,之前的研究很少为这种广义的数据组合问题形式化理论模型。现有的研究已经研究了描述混合物的模型[...]

来源:理论盘点博客

数据集的理论在哪里?

将数据集拆分为火车和测试数据的规范模型允许评估模型性能的统计有效性。但是,在现实世界中,通常不仅要考虑一个数据源,而且还有许多不同的来源。训练组的构建和处理远非直接。一方面,特定应用程序的定制数据可能非常有限或根本不可用。另一方面,使用所有可能的数据源还可能导致许多问题,包括分布不匹配和降低数据质量。鉴于不同数据源的质量,大小和组成可能会有所不同。目前尚不清楚数据策划如何影响下游模型性能。

最近的一项经验工作已经研究并优化了各种模型和下游任务的数据组成。但是,在建模和分析数据组成不同情况的理论特性方面的工作有限。数据策划是一个困难的问题,这是由于较大的搜索空间以获得最佳数据组成。到目前为止,先前的工作很少针对此通用数据组成问题进行正式的理论模型。现有作品研究了用于描述语言建模中数据混合物的模型[XPD+23]和噪声在缩放定律中的作用[BDK+21]。这篇博客文章重点介绍了在培训集中删除数据点的特定经验方案。我们将研究为此环境提出的不同理论模型。

数据删除的四个理论模型

我们的范围是理论模型,它研究了去除培训数据的效果。令原始数据集为原始数据集,为较小的数据集,是一个子集。让代表某些感兴趣模型的参数。

查看1:影响扰动和估计效果大小

自动有限样本鲁棒性度量:何时可以滴入一点数据会产生很大的差异