详细内容或原文请订阅后点击阅览
我艰难学到的 5 个 Excel AI 课程
本文将不受欢迎的体验转化为五个综合框架,这将提升您基于 Excel 的机器学习工作。
来源:KDnuggets# 简介
#对于许多组织来说,特别是那些处于受监管行业或技术基础设施有限的组织,Excel 及其 XLMiner 插件可作为预测建模和机器学习工作流程的主要平台。
XLMiner然而,Excel 的可访问性掩盖了一个关键差距:运行模型和构建值得信赖的分析系统之间的差异。在从事贷款审批预测项目时,我发现基于 Excel 的机器学习失败并不是由于算法限制,而是由于一些经常被忽视的做法。
本文将不受欢迎的体验转化为五个综合框架,这将提升您基于 Excel 的机器学习工作。
# 第 1 课:异常值检测的多种方法
异常值处理与其说是科学,不如说是艺术,过早删除可以消除携带重要信息的合法极值。在一种情况下,所有高于 95% 的住宅资产价值都通过简单的 IQR 计算被删除,假设它们是错误的。后来的分析显示,合法的超高价值财产被取消,这是大额贷款审批的相关部分。
教训:在删除之前使用多种检测方法和手动审核。创建全面的异常值检测框架。
课程在与主数据相邻的新工作表中,创建检测列:
- A 列:原始值 (residential_assets_value) B 列:IQR 方法=IF(A2 > QUARTILE.INC($A$2:$A$4270,3) + 1.5*(QUARTILE.INC($A$2:$A$4270,3)-QUARTILE.INC($A$2:$A$4270,1)), "Outlier_IQR", "正常") C 列:3-Sigma 方法=IF(ABS(A2-AVERAGE($A$2:$A$4270)) > 3*STDEV($A$2:$A$4270), "Outlier_3SD", "正常")D 列:百分位数方法=IF(A2 > PERCENTILE.INC($A$2:$A$4270,0.99), "Outlier_P99", "Normal")E 列:组合标志=IF(COUNTIF(B2:D2,"Outlier*")>=2, "调查", "OK")F 列:手动审核【调查后备注】G 列:最终决策【保留/删除/转换】
