详细内容或原文请订阅后点击阅览
数据漂移不是实际问题:您的监视策略是
监视很容易;要监视的不是。在机器学习领域,数据漂移质量是噪音,直到您知道这意味着什么。
来源:走向数据科学是一种吞噬数据,学习模式和预测的准确性方法。但是,有了最好的模型,即使这些预测也可能在现实世界中崩溃,而没有声音。使用机器学习系统的公司倾向于提出同样的问题:出了什么问题?
标准拇指规则答案是“数据漂移”。如果您的客户的属性,交易或图像由于传入数据的分布而发生变化,则模型对世界的理解变得过时了。但是,数据漂移不是真正的问题,而是症状。我认为真正的问题是大多数组织在不了解数据的情况下监视数据。
数据漂移数据漂移的神话作为根本原因
根据我的经验,大多数机器学习团队只有在模型的性能恶化后才查找数据漂移。统计漂移检测是该行业对不稳定的自动反应。但是,即使统计漂移可以证明数据已经发生变化,但它很少解释变化的含义或是否重要。
机器学习我倾向于提供的示例之一是Google Cloud的顶点AI,它提供了开箱即用的漂移检测系统。它可以跟踪特征分布,看到它们摆脱正常分布,甚至在漂移超过预定义的阈值时自动化重新训练。如果您只担心统计一致性,这是理想的选择。但是,在大多数业务中,这还不够。
Google Cloud的顶点AI一家我参与了成立产品推荐模型的电子商务公司。在假期期间,客户倾向于从日常需求转移到购买礼物。我看到的是,模型的输入数据改变了产品类别,价格范围和所有飘散的购买频率。常规的漂移检测系统可能会引起警报,但这是正常行为,而不是问题。将其视为问题可能会导致模型中不必要的重新训练甚至误导性变化。
切片