详细内容或原文请订阅后点击阅览
一种训练-测试-验证分割数据集的非常规方法
确保小数据集分割的分布完整性使用 Microsoft Designer 生成我们都需要对总体进行抽样,以进行统计分析并获得见解。当我们这样做时,目的是确保样本的分布与总体的分布紧密匹配。为此,我们有各种方法:简单随机抽样(其中每个总体成员都有相同的被选中的机会)、分层抽样(包括将总体划分为子组并从每个子组中抽样)、聚类抽样(其中将总体划分为簇并随机选择整个簇)、系统抽样(包括选择总体的每第 n 个成员)等。每种方法都有其优势,并根据研究的特定需求和特点进行选择。在本文中,我们不会关注抽样方法本身,而是关注使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表格数据。我们将在这里使用 Python。以下是您可能已经知道的一些方法:1.简单的训练-测试-验证分割这种方法使用随机抽样方法。示例代码:from sklearn.model_selection import train_test_split# 假设 X 是你的特征集,y 是你的目标变量X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)X_val, X_test, y_val, y_te
来源:走向数据科学一种训练-测试-验证分割数据集的非常规方法
一种训练-测试-验证分割数据集的非常规方法
确保小数据集分割中的分布完整性
我们都需要对总体进行抽样以进行统计分析并获得见解。当我们这样做时,目的是确保我们的样本分布与总体分布紧密匹配。
统计分析为此,我们有各种方法:简单随机抽样(其中每个人口成员都有同等被选中的机会)、分层抽样(包括将人口划分为子组并从每个子组中抽样)、集群抽样(其中将人口划分为集群并随机选择整个集群)、系统抽样(包括选择人口的每第 n 个成员)等等。每种方法都有其优势,并根据研究的具体需求和特点进行选择。
简单随机抽样 分层抽样 集群抽样 系统抽样在本文中,我们不会关注抽样方法本身,而是使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表格数据。我们将在这里使用 Python。
训练-测试-验证 表格数据以下是一些您可能已经知道的方法:
1. 简单的训练-测试-验证拆分
此方法使用随机抽样方法。示例代码:
随机抽样from sklearn.model_selection import train_test_split# 假设 X 是您的特征集,y 是您的目标变量X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)
2. 分层训练-测试-验证分割
相同比例的类别 不是连续变量。3. K 倍交叉验证
k
k-1
k
:
类似