详细内容或原文请订阅后点击阅览
人工智能时代如何训练评分模型
用于比较候选模型、测试稳定性和选择可靠的最终分数的结构化方法如何在人工智能时代训练评分模型一文首先出现在走向数据科学上。
来源:走向数据科学本节中使用的所有代码均可在 GitHub 上获取。业务逻辑和建模功能位于src/selection目录中,具体在以下文件中:
src/selection/logit_model_selection.py
相应的分析和结果记录在:
08_logistic_model_selection.qmd
,生成代码、自动化模型训练、比较指标和生成汇总表变得更加容易。现在,一些结构良好的提示可以帮助数据科学家编写 Python 脚本、估计逻辑回归、计算 AUC 和基尼系数、生成绘图并记录结果。
但这样的速度会带来风险。
评分模型不仅仅是一个成功运行的算法。它不仅仅是在训练样本上性能最高的模型。在专业的信用风险环境中,评分模型必须在统计上合理、长期稳定、可解释、与业务预期一致,并且部署后易于监控。
本文是有关构建稳健、可解释且稳定的评分模型的更广泛系列的一部分。在之前的文章中,我们介绍了建模之前的主要步骤:构建数据集、执行探索性数据分析、准备变量、预选预测变量、测试随时间的稳定性、比较开发和验证样本以及离散连续变量。
我们现在转向最重要的阶段之一:训练候选模型并选择最终模型。
本文的目标是提出一种清晰的方法,用于训练多个评分模型、比较它们的性能、评估它们的稳定性,并根据统计、业务和操作标准选择最终模型。
ChatGPT、Codex 和 GitHub Copilot 等工具可以帮助生成代码、自动化建模循环、运行统计测试、生成汇总表和记录结果。在这项工作中,我们将专门使用 Codex 并评估其执行每项任务的能力。
数据集
VIF < 10
[1]
[2]
