详细内容或原文请订阅后点击阅览
为什么 MLOps 再训练计划失败 - 模型不会忘记,他们会感到震惊
我们将艾宾浩斯遗忘曲线拟合到 555,000 笔真实欺诈交易中,得到 R² = −0.31 — 比平坦线更糟糕。这一结果解释了为什么基于日历的再训练在生产中失败,并引入了一种在实际系统中有效的实用冲击检测方法。文章《为什么 MLOps 重新训练计划失败——模型不会忘记,他们会感到震惊》一文首先出现在《走向数据科学》上。
来源:走向数据科学大多数生产机器学习模型不会平稳衰减——它们会在突然的、不可预测的冲击中失败。当我们对 555,000 笔类似生产的欺诈交易拟合指数“遗忘曲线”时,它返回 R² = −0.31,这意味着它的表现比预测平均值更差。
在设置(或信任)任何再训练计划之前,请对现有的每周指标运行此 3 行诊断:
报告 = tracker.report()
R² ≥ 0.4 → 平稳状态→ 预定的再培训工作
R² < 0.4 → 情景机制→ 使用冲击检测,而不是日历
如果您的 R² 低于 0.4,则您的模型并未“衰减”,并且从半衰期估计得出的所有内容都可能具有误导性。
从一周开始
这是第七周。
召回率在 7 天内从 0.9375 跌至 0.7500。没有发出警报。每月总指标移动了几个点——完全在可接受的范围内。仪表板显示绿色。
那一周抹去了三周的模型改进。该模型用来捕获的数十起欺诈案件直接通过而未被发现。标准指数衰减模型——我构建的每个再训练计划的数学支柱——不仅无法预测它。
它的预测恰恰相反。
R² = −0.31。比平线更糟糕。
这个数字打破了我对 MLOps 的看法。不是戏剧性的。悄悄。这种突破会让你回去重新审视你多年来一直持有的假设,但从未质疑过它。
本文就是关于这个假设的,为什么它对于整个生产机器学习系统来说是错误的,以及该怎么做——以公共数据集上的实数为后盾,你可以在一个下午重现。
完整代码:https://github.com/Emmimal/mlops-forgetting-curve/
无人质疑的假设
整个再培训安排行业都是建立在一个借鉴自 19 世纪德国心理学家的单一想法之上的。
