详细内容或原文请订阅后点击阅览
避免过度拟合、类不平衡和特征缩放问题:机器学习从业者笔记本
机器学习从业者面临三个可能损害模型性能的持续挑战:过度拟合、类别不平衡和特征缩放问题。
来源:KDnuggets简介
机器学习从业者面临三个可能损害模型性能的持续挑战:过度拟合、类别不平衡和特征缩放问题。这些问题跨领域和模型类型出现,但当从业者了解底层机制并应用有针对性的干预措施时,就会存在有效的解决方案。
避免过度拟合
当模型很好地学习训练数据模式时,就会发生过度拟合,从而捕获噪声而不是可概括的关系。结果是——令人印象深刻的训练准确性与令人失望的现实表现相结合。
交叉验证 (CV) 为检测过度拟合提供了基础。 K-fold CV 将数据分成 K 个子集,在 K-1 折叠上进行训练,同时在剩余折叠上进行验证。这个过程重复 K 次,产生可靠的性能估计。折叠之间的差异也提供了有价值的信息。高方差表明模型对特定训练示例敏感,这是过度拟合的另一个指标。分层 CV 保持跨折叠的类比例,这对于不平衡的数据集尤其重要,其中随机分割可能会创建具有截然不同的类分布的折叠。
from sklearn.model_selection import cross_val_score
从 sklearn.ensemble 导入 RandomForestClassifier
# 假设X和y已经定义
模型 = RandomForestClassifier(n_estimators=100)
分数 = cross_val_score(模型, X, y, cv=5, 评分='准确度')
print(f"平均准确度:{scores.mean():.3f} (+/- {scores.std():.3f})")
