详细内容或原文请订阅后点击阅览

一种训练-测试-验证分割数据集的非常规方法

2024年7月10日 17:08 33 Comments

确保小数据集分割的分布完整性使用 Microsoft Designer 生成我们都需要对总体进行抽样，以进行统计分析并获得见解。当我们这样做时，目的是确保样本的分布与总体的分布紧密匹配。为此，我们有各种方法：简单随机抽样（其中每个总体成员都有相同的被选中的机会）、分层抽样（包括将总体划分为子组并从每个子组中抽样）、聚类抽样（其中将总体划分为簇并随机选择整个簇）、系统抽样（包括选择总体的每第 n 个成员）等。每种方法都有其优势，并根据研究的特定需求和特点进行选择。在本文中，我们不会关注抽样方法本身，而是关注使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表格数据。我们将在这里使用 Python。以下是您可能已经知道的一些方法：1.简单的训练-测试-验证分割这种方法使用随机抽样方法。示例代码：from sklearn.model_selection import train_test_split# 假设 X 是你的特征集，y 是你的目标变量X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)X_val, X_test, y_val, y_te

来源:走向数据科学

一种训练-测试-验证分割数据集的非常规方法

确保小数据集分割中的分布完整性

使用 Microsoft Designer 生成

我们都需要对总体进行抽样以进行统计分析并获得见解。当我们这样做时，目的是确保我们的样本分布与总体分布紧密匹配。

统计分析

为此，我们有各种方法：简单随机抽样（其中每个人口成员都有同等被选中的机会）、分层抽样（包括将人口划分为子组并从每个子组中抽样）、集群抽样（其中将人口划分为集群并随机选择整个集群）、系统抽样（包括选择人口的每第 n 个成员）等等。每种方法都有其优势，并根据研究的具体需求和特点进行选择。

简单随机抽样 分层抽样 集群抽样 系统抽样

在本文中，我们不会关注抽样方法本身，而是使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表格数据。我们将在这里使用 Python。

训练-测试-验证 表格数据

以下是一些您可能已经知道的方法：

1. 简单的训练-测试-验证拆分

此方法使用随机抽样方法。示例代码：

随机抽样

from sklearn.model_selection import train_test_split# 假设 X 是您的特征集，y 是您的目标变量X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

2. 分层训练-测试-验证分割

相同比例的类别 不是连续变量。

3. K 倍交叉验证

k k-1 k : 类似

分割 train 人口 test 训练 temp 方法数据集测试随机抽样使用集群抽样进行验证

一种训练-测试-验证分割数据集的非常规方法

一种训练-测试-验证分割数据集的非常规方法

确保小数据集分割中的分布完整性

1. 简单的训练-测试-验证拆分

2. 分层训练-测试-验证分割

3. K 倍交叉验证

其他外部链接

Tags

XiaoMi-AI