构建 AI 代理来检测和处理时间序列数据中的异常

将统计检测与代理决策相结合构建人工智能代理来检测和处理时间序列数据中的异常情况一文首先出现在《走向数据科学》上。

来源:走向数据科学

作为一名从事时间序列预测的数据科学家,我遇到过的异常情况和异常值多得数不胜数。在需求预测、财务、流量和销售数据中,我不断遇到难以解释的高峰和低谷。

异常处理通常是一个灰色地带,很少是黑白分明的,而是更深层次问题的指标。有些异常是真实的信号,例如假期、天气事件、促销或病毒式传播时刻;其他的只是数据故障,但乍一看都是一样的。我们越快检测到数据异常,就能越快采取行动来防止性能不佳和损坏。

我们正在处理关键的时间序列数据,检测异常至关重要。如果删除真实事件,则会删除有价值的信号数据点,如果保留错误警报信号,则训练数据将包含噪声。

大多数基于 ML 的检测器都会根据 Z 分数、IQR 阈值或其他没有任何上下文的静态方法来标记峰值。随着人工智能的最新进展,我们有更好的选择来设计一个对每个案例进行推理的异常处理代理。检测异常行为、检查上下文并决定是否修复数据、将其保留为真实信号或将其标记以供审查的代理。

在本文中,我们逐步构建了这样一个代理,它将简单的统计检测与人工智能代理相结合,充当时间序列数据的第一道防线,减少人工干预,同时保留最重要的信号。我们将根据异常的严重程度通过自主决策来检测和处理 COVID-19 数据中的异常,使用:

  • 来自disease.sh API 的实时流行病学数据。
  • 统计异常检测。
  • 严重性分类。
  • 一个由 GroqCloud 支持的 AI 代理,可以自主决定是否:
  • 修复异常
  • 保留异常
  • 标记异常以供人工审核
  • 这是代理决策智能,而不仅仅是异常检测。

    为什么仅靠传统的异常检测还不够?

    传统异常检测

  • 手动驱动动作。