Oversampling and Undersampling, Explained: A Visual Guide with Mini 2D Dataset
数据预处理人工生成和删除数据,以造福大众⛳️ 更多数据预处理,解释:· 缺失值插补 · 分类编码 · 数据缩放 · 离散化 ▶ 过采样和欠采样收集每个类别都有完全相同数量的类别需要预测的数据集可能是一个挑战。实际上,事情很少能完美平衡,当你制作分类模型时,这可能是一个问题。当一个模型在这样的数据集上训练时,一个类别比另一个类别有更多的示例,它通常会变得更擅长预测较大的组,而更不擅长预测较小的组。为了解决这个问题,我们可以使用过采样和欠采样等策略——为较小的组创建更多示例或从较大的组中删除一些示例。目前有许多不同的过采样和欠采样方法(名字吓人,如 SMOTE、ADASYN 和 Tomek Lin