介绍 ARFBench：基于真实事件的时间序列问答基准 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

介绍 ARFBench：基于真实事件的时间序列问答基准

2026年5月18日 07:29 33 Comments

每年由于系统故障造成的损失超过一万亿美元。为了解决这些问题，工程师必须快速排除故障。事件响应中的一项重要任务涉及分析可观测性指标或反映软件系统运行状况的时间序列数据。例如，服务工程师可能会使用 Datadog 来回答诸如“延迟何时开始增加？”之类的问题。以及“延迟之外的哪些指标也表现异常？”定位异常行为的根本原因。这些时间序列问答 (TSQA) 任务对于工程师来说至关重要，并且为 SRE 模型和代理提供了具有挑战性且必要的任务。在这项工作中，我们探讨了 AI 模型执行 TSQA 任务的程度。为此，我们很高兴推出异常推理框架基准 (ARFBench)，这是一个 TSQA 基准，源自 Datadog 的真实内部事件，使用 Datadog 自己的内部遥测技术（图 1）。在这篇博文中，我们将介绍基准测试实验的三个关键要点：现有模型陷入困境：领先的 LLM、视觉语言模型 (VLM) 和时间序列基础模型 (TSFM) 在 ARFBench 上还有很大的改进空间。混合模型有帮助：我们引入了一种新的混合 TSFM-VLM 模型，其整体性能可与顶级前沿 [...]

来源:ΑΙhub

作者：Stephan Xie、Ben Cohen、Mononito Goswami、沉军宏、Emaad Khwaja、Chenghao Liu、David Asker、Othmane Abou-Amal、Ameet Talwalkar

每年由于系统故障造成的损失超过一万亿美元。为了解决这些问题，工程师必须快速排除故障。

事件响应中的一项重要任务涉及分析可观测性指标或反映软件系统运行状况的时间序列数据。例如，服务工程师可能会使用 Datadog 来回答诸如“延迟何时开始增加？”之类的问题。以及“延迟之外的哪些指标也表现异常？”定位异常行为的根本原因。这些时间序列问答 (TSQA) 任务对于工程师来说至关重要，并且为 SRE 模型和代理提供了具有挑战性且必要的任务。在这项工作中，我们探讨了 AI 模型执行 TSQA 任务的程度。

为此，我们很高兴推出异常推理框架基准 (ARFBench)，这是一个源自 Datadog 真实内部事件的 TSQA 基准，使用 Datadog 自己的内部遥测技术（图 1）。在这篇博文中，我们将介绍基准测试实验的三个关键要点：

现有模型陷入困境：领先的 LLM、视觉语言模型 (VLM) 和时间序列基础模型 (TSFM) 在 ARFBench 上还有很大的改进空间。

混合模型的帮助：我们引入了一种新的混合 TSFM-VLM 模型，其整体性能可与 ARFBench 上的顶级前沿模型相媲美，展示了有前途的 TSQA 建模新方法。

人类与人工智能的互补性：我们在 ARFBench 上观察到我们的顶级 TSFM-VLM 模型与人类专家之间存在明显不同的错误情况。这些结果表明它们的优势是互补的。我们引入了一个模型专家预言机，为 LLM、VLM 和 TSFM 建立了一个新的超人前沿。

ARFBench：使用真实事件数据创建 TSQA 基准

领先的 LLM、VLM 和 TSFM 仍有很大的改进空间

标签：

ML@CMU