尽管机器学习(ML)技术在现实世界应用中的成功越来越大,但随着时间的推移,它们的维护仍然具有挑战性。尤其是,由于训练和随着时间的推移(称为数据漂移)的培训和服务数据之间的显着变化,因此Deploy ML模型的预测准确性可能会遭受损失。传统数据漂移解决方案主要集中于检测漂移,然后重新训练ML模型,但不要辨别检测到的漂移是否对模型性能有害。在本文中,我们观察到并非所有数据漂移导致预测准确性下降。然后,我们引入了一种新的方法,用于识别服务数据分布的一部分,其中漂移可能对模型性能有害,我们的准确性较低(DDLA)将其称为数据分布。我们的方法,使用决策树,精确地指出了ML模型(尤其是黑框型号)中低临界区域的低调区域。通过关注这些DDLA,我们有效地评估了数据漂移对模型性能的影响,并在ML管道中做出明智的决策。与现有的数据漂移技术相反,我们仅在有害漂移的情况下对模型性能的有害漂移而提倡进行模型再培训。通过对各种数据集和模型进行广泛的实验评估,我们的发现表明,我们的方法显着提高了基准的成本效率,同时实现了可比的精度。
主要关键词