详细内容或原文请订阅后点击阅览

过采样和欠采样解释：带有迷你 2D 数据集的可视化指南

2024年10月26日 12:02 33 Comments

数据预处理人工生成和删除数据，以造福大众⛳️ 更多数据预处理，解释：· 缺失值插补 · 分类编码 · 数据缩放 · 离散化 ▶ 过采样和欠采样收集每个类别都有完全相同数量的类别需要预测的数据集可能是一个挑战。实际上，事情很少能完美平衡，当你制作分类模型时，这可能是一个问题。当一个模型在这样的数据集上训练时，一个类别比另一个类别有更多的示例，它通常会变得更擅长预测较大的组，而更不擅长预测较小的组。为了解决这个问题，我们可以使用过采样和欠采样等策略——为较小的组创建更多示例或从较大的组中删除一些示例。目前有许多不同的过采样和欠采样方法（名字吓人，如 SMOTE、ADASYN 和 Tomek Links），但似乎没有太多资源可以直观地比较它们的工作原理。所以，在这里，我们将使用一个简单的 2D 数据集来显示应用这些方法后数据中发生的变化，这样我们就可以看到每种方法的输出有多么不同。您将在视觉效果中看到，这些不同的方法给出了不同的解决方案，谁知道呢，其中一种可能适合您的特定机器学习挑战！所有视觉效果：作者使用 Canva Pro 创建。针对移动设备进行了优化；在桌面上可能显得过大。DefinitionOversampl

来源:走向数据科学

数据预处理

过采样和效采样，解释了：带有Mini 2D数据集的视觉指南

人为生成和删除更大的好处的数据

⛳️更多数据预处理，解释：·缺失值归因·分类编码·数据缩放

缺少价值插补分类编码数据缩放离散化过采样和不足采样

收集每个类具有完全相同数量的类要预测的数据集可能是一个挑战。实际上，事情很少是完美平衡的，当您制定分类模型时，这可能是一个问题。当在此类数据集上对模型进行训练，其中一个类的示例比另一个类别的示例更多时，通常会在预测较大的群体方面更好，并且更糟地预测较小的组。为了帮助解决这个问题，我们可以使用诸如过采样和底面采样之类的策略 - 创建了更多较小群体的示例，也可以从较大的群体中删除一些示例。

那里有许多不同的过采样和不足的采样方法（带有Smote，Adasyn和Tomek链接等令人生畏的名称），但似乎并没有太多的资源在视觉上比较它们的工作方式。因此，在这里，我们将使用一个简单的2D数据集来显示应用这些方法后数据中发生的更改，以便我们可以看到每种方法的输出的不同之处。您会在视觉效果中看到这些各种方法提供了不同的解决方案，谁知道，可能适合您的特定机器学习挑战！

所有视觉效果：使用Canva Pro创建的作者。针对移动设备进行了优化；可能会出现在桌面上。

定义

过采样

过采样使数据集比另一组少得多的示例少得多。它的工作方式是从较小的组中制作更多示例的副本。这有助于数据集更平均地表示这两个组。

底采样

混合采样

📊使用的数据集

过采样方法

smote

adasyn

enn

数据集编码数据 2D 离散化预测采样可视化实际上预处理不同的分类删除视觉效果方法插补机器学习解释类别可能示例移动设备数据缩放工作原理