Introducing ARFBench: A time series question-answering benchmark based on real incidents
每年由于系统故障造成的损失超过一万亿美元。为了解决这些问题,工程师必须快速排除故障。事件响应中的一项重要任务涉及分析可观测性指标或反映软件系统运行状况的时间序列数据。例如,服务工程师可能会使用 Datadog 来回答诸如“延迟何时开始增加?”之类的问题。以及“延迟之外的哪些指标也表现异常?”定位异常行为的根本原因。这些时间序列问答 (TSQA) 任务对于工程师来说至关重要,并且为 SRE 模型和代理提供了具有挑战性且必要的任务。在这项工作中,我们探讨了 AI 模型执行 TSQA 任务的程度。为此,我们很高兴推出异常推理框架基准 (ARFBench),这是一个 TSQA 基准,源自 Datado
在第一个用户到来之前,他为金融和医疗保健领域的 100,000 多个用户构建了容错基础设施。这是保持这些系统运行的排序框架,以及企业人工智能团队通过相反的做法所犯的错误。大多数企业人工智能系统不会因为模型错误而失败。他们失败是因为 [...]