为什么 MLOps 再训练计划失败 - 模型不会忘记,他们会感到震惊

我们将艾宾浩斯遗忘曲线拟合到 555,000 笔真实欺诈交易中,得到 R² = −0.31 — 比平坦线更糟糕。这一结果解释了为什么基于日历的再训练在生产中失败,并引入了一种在实际系统中有效的实用冲击检测方法。文章《为什么 MLOps 重新训练计划失败——模型不会忘记,他们会感到震惊》一文首先出现在《走向数据科学》上。

来源:走向数据科学

大多数生产机器学习模型不会平稳衰减——它们会在突然的、不可预测的冲击中失败。当我们对 555,000 笔类似生产的欺诈交易拟合指数“遗忘曲线”时,它返回 R² = −0.31,这意味着它的表现比预测平均值更差。

在设置(或信任)任何再训练计划之前,请对现有的每周指标运行此 3 行诊断:

报告 = tracker.report()
  • print(report.forgetting_regime) # “平滑”或“偶发”
  • print(report.fit_r_squared) # < 0.4 → 放弃日程假设
  • R² ≥ 0.4 → 平稳状态→ 预定的再培训工作

    R² < 0.4 → 情景机制→ 使用冲击检测,而不是日历

    如果您的 R² 低于 0.4,则您的模型并未“衰减”,并且从半衰期估计得出的所有内容都可能具有误导性。

    从一周开始

    这是第七周。

    召回率在 7 天内从 0.9375 跌至 0.7500。没有发出警报。每月总指标移动了几个点——完全在可接受的范围内。仪表板显示绿色。

    那一周抹去了三周的模型改进。该模型用来捕获的数十起欺诈案件直接通过而未被发现。标准指数衰减模型——我构建的每个再训练计划的数学支柱——不仅无法预测它。

    它的预测恰恰相反。

    R² = −0.31。比平线更糟糕。

    这个数字打破了我对 MLOps 的看法。不是戏剧性的。悄悄。这种突破会让你回去重新审视你多年来一直持有的假设,但从未质疑过它。

    本文就是关于这个假设的,为什么它对于整个生产机器学习系统来说是错误的,以及该怎么做——以公共数据集上的实数为后盾,你可以在一个下午重现。

    完整代码:https://github.com/Emmimal/mlops-forgetting-curve/

    无人质疑的假设

    整个再培训安排行业都是建立在一个借鉴自 19 世纪德国心理学家的单一想法之上的。

    R(t) = R₀ · e^(−λt)所以我做到了。实验