详细内容或原文请订阅后点击阅览
鲁棒机器学习系统中的漂移检测
机器学习系统长期成功的先决条件“鲁棒机器学习系统中的漂移检测”一文首先出现在《走向数据科学》上。
来源:走向数据科学由 Sebastian Humberg 和 Morris Stallmann 共同创作。
简介
机器学习 (ML) 模型旨在根据历史数据模式做出准确预测。但如果这些模式一夜之间发生变化怎么办?例如,在信用卡欺诈检测中,随着犯罪分子不断改进策略、诚实的客户改变习惯,今天的合法交易模式明天可能会变得可疑。或者想象一下电子商务推荐系统:随着冬季假期席卷新趋势,对夏季购物者有效的推荐系统可能会突然失败。这种微妙但无情的数据变化(称为漂移)会悄悄地削弱模型的性能,将昨天的准确预测变成今天代价高昂的错误。
在本文中,我们将为理解漂移奠定基础:它是什么、为什么重要以及它如何潜入最好的机器学习系统。我们将分解两种主要类型的漂移:数据漂移和概念漂移。然后,我们概述了强大的框架和统计工具,用于在模型脱轨之前检测漂移,从理论转向实践。最后,您将了解如何应对漂移,以便您的机器学习系统在不断发展的世界中保持弹性。
什么是漂移?
漂移是指数据分布随时间的意外变化,这可能会对预测模型的性能产生负面影响。机器学习模型通过应用模型从历史数据中学到的模式来解决预测任务。更正式地说,在监督机器学习中,模型从 t 时刻的所有可用数据中学习一组特征向量 X 和目标值 y 的联合分布:
\[P_{t_{0}}(X, y) = P_{t_{0}}(X) \times P_{t_{0}}(y|X)\]
\[P_{t_0} (X,y) \ne P_{t}(X,y).\]
对于某些 t>t0。
漂移的主要类型:数据漂移和概念漂移
回想一下,联合概率可以分解如下:
\[P(X,y) = P(X) \times P(y|X).\]
数据漂移
如果特征的分布发生变化,那么我们就说数据漂移:
