详细内容或原文请订阅后点击阅览
从原始数据到风险类别
信用评分分类实用指南《从原始数据到风险类别》一文首先出现在《走向数据科学》上。
来源:走向数据科学模型失败不是因为算法很弱,而是因为变量没有以模型可以正确理解的方式准备?
在信用风险建模中,我们通常关注模型选择、绩效指标、特征选择或验证。但在估计任何系数之前,另一个问题值得关注:每个变量应该如何进入模型?
原始变量并不总是风险的最佳表示。
连续变量可能与默认值具有非线性关系。分类变量可能包含太多模式。某些变量可能包括异常值、缺失值、不稳定分布或观察值很少的类别。如果忽略这些问题,模型可能会变得不稳定、难以解释并且在生产中可靠性较低。
这是分类变得重要的地方。
分类,也称为粗分类、分组、分类或分箱,包括将原始变量值转换为较少数量的有意义的组。在信用评分中,创建这些组不仅仅是为了方便。创建它们是为了使变量和违约风险之间的关系更清晰、更稳定并且更易于在模型中使用。
当最终模型是逻辑回归时,此步骤特别有用,逻辑回归在信用评分中仍然广泛使用,因为它透明、可解释且易于转换为记分卡。
对于分类变量,分类有助于减少模态数量。对于连续变量,它有助于捕获非线性风险模式,减少异常值的影响,处理缺失值,提高可解释性,并为证据权重转换准备变量。
在本文中,我们将研究为什么分类是信用评分的重要步骤,以及如何使用分类将原始变量转换为稳定的风险类别。
1. 为什么分类在信用评分中很重要
1.1 分类降低维度
让我们从分类变量开始。
