数据集的理论在哪里?将数据集拆分为训练数据和测试数据的典型模型允许统计有效性来评估模型性能。然而,在现实世界中,通常不仅要考虑一个数据源,还要考虑许多不同的数据源;训练集的构建和处理远非易事。一方面,特定应用的定制数据可能非常有限或根本不可用。另一方面,使用所有可能的数据源也可能导致大量问题,包括分布不匹配和数据质量下降。鉴于不同数据源的质量、大小和组成可能有所不同;目前尚不清楚数据管理如何影响下游模型性能。最近的一系列实证研究已经针对各种类型的模型和下游任务研究和优化了数据组合。然而,在对不同数据组合场景的理论属性进行建模和分析方面的工作有限。数据管理是一个难题,因为最佳数据组合的搜索空间很