详细内容或原文请订阅后点击阅览
介绍 ARFBench:基于真实事件的时间序列问答基准
每年由于系统故障造成的损失超过一万亿美元。为了解决这些问题,工程师必须快速排除故障。事件响应中的一项重要任务涉及分析可观测性指标或反映软件系统运行状况的时间序列数据。例如,服务工程师可能会使用 Datadog 来回答诸如“延迟何时开始增加?”之类的问题。以及“延迟之外的哪些指标也表现异常?”定位异常行为的根本原因。这些时间序列问答 (TSQA) 任务对于工程师来说至关重要,并且为 SRE 模型和代理提供了具有挑战性且必要的任务。在这项工作中,我们探讨了 AI 模型执行 TSQA 任务的程度。为此,我们很高兴推出异常推理框架基准 (ARFBench),这是一个 TSQA 基准,源自 Datadog 的真实内部事件,使用 Datadog 自己的内部遥测技术(图 1)。在这篇博文中,我们将介绍基准测试实验的三个关键要点: 现有模型陷入困境:领先的 LLM、视觉语言模型 (VLM) 和时间序列基础模型 (TSFM) 在 ARFBench 上还有很大的改进空间。混合模型有帮助:我们引入了一种新的混合 TSFM-VLM 模型,其整体性能可与顶级前沿 [...]
来源:ΑΙhub作者:Stephan Xie、Ben Cohen、Mononito Goswami、沉军宏、Emaad Khwaja、Chenghao Liu、David Asker、Othmane Abou-Amal、Ameet Talwalkar
每年由于系统故障造成的损失超过一万亿美元。为了解决这些问题,工程师必须快速排除故障。
事件响应中的一项重要任务涉及分析可观测性指标或反映软件系统运行状况的时间序列数据。例如,服务工程师可能会使用 Datadog 来回答诸如“延迟何时开始增加?”之类的问题。以及“延迟之外的哪些指标也表现异常?”定位异常行为的根本原因。这些时间序列问答 (TSQA) 任务对于工程师来说至关重要,并且为 SRE 模型和代理提供了具有挑战性且必要的任务。在这项工作中,我们探讨了 AI 模型执行 TSQA 任务的程度。
为此,我们很高兴推出异常推理框架基准 (ARFBench),这是一个源自 Datadog 真实内部事件的 TSQA 基准,使用 Datadog 自己的内部遥测技术(图 1)。在这篇博文中,我们将介绍基准测试实验的三个关键要点:
ARFBench:使用真实事件数据创建 TSQA 基准
领先的 LLM、VLM 和 TSFM 仍有很大的改进空间
标签:
ML@CMU
