基于推理的异常检测框架:跨域异常检测的实时、可扩展且自动化的方法

检测大型分布式系统中的异常存在一些挑战。第一个挑战来自需要处理的数据量。在高吞吐量环境中标记异常需要仔细考虑算法和系统设计。第二个挑战来自在生产中利用此类系统的时间序列数据集的异质性。在实践中,异常检测系统很少针对单个用例部署。通常,需要监控多个指标,通常跨多个领域(例如工程、业务和……

来源:Apple机器学习研究

检测大型分布式系统中的异常存在一些挑战。第一个挑战来自需要处理的数据量。在高吞吐量环境中标记异常需要仔细考虑算法和系统设计。第二个挑战来自在生产中利用此类系统的时间序列数据集的异质性。在实践中,异常检测系统很少针对单个用例部署。通常,需要监控多个指标,通常跨多个领域(例如工程、业务和运营)。一刀切的方法很少奏效,因此需要针对每个应用程序对这些系统进行微调 - 这通常是手动完成的。第三个挑战来自这样一个事实:在这种情况下确定异常的根本原因就像大海捞针一样。识别(实时)与异常时间序列数据因果关联的时间序列数据集是一个非常困难的问题。在本文中,我们描述了一个解决这些挑战的统一框架。基于推理的异常检测框架 (RADF) 旨在对非常大的数据集执行实时异常检测。该框架采用了一种新技术(mSelect),可以自动执行每个用例的算法选择和超参数调整过程。最后,它还具有检测后功能,可以更快地进行分类和确定根本原因。我们的大量实验表明,由 mSelect 提供支持的 RADF 在 9 个公共基准测试数据集中的 5 个中,在 AUC 性能方面超越了最先进的异常检测模型。 RADF 在 9 个数据集中有 7 个数据集的 AUC 超过 0.85,这是任何其他最先进模型都无法比拟的。