一种训练-测试-验证分割数据集的非常规方法

确保小数据集分割的分布完整性使用 Microsoft Designer 生成我们都需要对总体进行抽样,以进行统计分析并获得见解。当我们这样做时,目的是确保样本的分布与总体的分布紧密匹配。为此,我们有各种方法:简单随机抽样(其中每个总体成员都有相同的被选中的机会)、分层抽样(包括将总体划分为子组并从每个子组中抽样)、聚类抽样(其中将总体划分为簇并随机选择整个簇)、系统抽样(包括选择总体的每第 n 个成员)等。每种方法都有其优势,并根据研究的特定需求和特点进行选择。在本文中,我们不会关注抽样方法本身,而是关注使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表格数据。我们将在这里使用 Python。以下是您可能已经知道的一些方法:1.简单的训练-测试-验证分割这种方法使用随机抽样方法。示例代码:from sklearn.model_selection import train_test_split# 假设 X 是你的特征集,y 是你的目标变量X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)X_val, X_test, y_val, y_te

来源:走向数据科学

一种训练-测试-验证分割数据集的非常规方法

一种训练-测试-验证分割数据集的非常规方法

确保小数据集分割中的分布完整性

使用 Microsoft Designer 生成
使用 Microsoft Designer 生成

我们都需要对总体进行抽样以进行统计分析并获得见解。当我们这样做时,目的是确保我们的样本分布与总体分布紧密匹配。

统计分析

为此,我们有各种方法:简单随机抽样(其中每个人口成员都有同等被选中的机会)、分层抽样(包括将人口划分为子组并从每个子组中抽样)、集群抽样(其中将人口划分为集群并随机选择整个集群)、系统抽样(包括选择人口的每第 n 个成员)等等。每种方法都有其优势,并根据研究的具体需求和特点进行选择。

简单随机抽样 分层抽样 集群抽样 系统抽样

在本文中,我们不会关注抽样方法本身,而是使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表格数据。我们将在这里使用 Python。

训练-测试-验证 表格数据

以下是一些您可能已经知道的方法:

1. 简单的训练-测试-验证拆分

此方法使用随机抽样方法。示例代码:

随机抽样
from sklearn.model_selection import train_test_split# 假设 X 是您的特征集,y 是您的目标变量X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

2. 分层训练-测试-验证分割

相同比例的类别 不是连续变量。

3. K 倍交叉验证

k k-1 k : 类似