DiffuJudge-AV：用于校准 AV 视频评估的扩散启发框架 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

DiffuJudge-AV：用于校准 AV 视频评估的扩散启发框架

2026年5月28日 12:00 33 Comments

一种受扩散启发的框架，用于压力测试和降噪 LLM-as-a-Judge 管道，应用于安全关键的驾驶视频。后 DiffuJudge-AV：用于校准 AV 视频评估的扩散启发框架首先出现在走向数据科学上。

来源:走向数据科学

有一种特殊的结果看起来令人印象深刻，直到您提出错误的第二个问题。

在这个项目中，纯文本 Claude 法官对自动驾驶视觉 QA 答案进行评分时，皮尔逊相关性为 0.753。乍一看，这看起来像是一个可用的评估器。它追踪黄金分数，它产生理由，它是一个强大的封闭模型。足以对模型输出进行分类，对吧？

然后我查看了二次加权的科恩 κ。是 0.057。

那是项目发生变化的时刻。法官与黄金标签具有等级相关性，但其行为并不像普通安全评估员。它已经学会了看起来最安全的故障模式：将几乎所有内容压缩到 1-5 等级的中间。对于普通的基准报告来说，这可能会被忽视。对于需要在软件发布之前标记错误答案的自动驾驶审核流程来说，这是危险的。

因此，我构建了 DiffuJudge-AV，这是一个针对驾驶视频的 LLM/VLM 评委的小型评估评估框架。这个想法很简单：将法官的分数视为对潜在真实评分的嘈杂观察，故意让法官接触已知的评分偏差来源，然后使用一步 Tweedie 后验均值对所得分数分布进行去噪，并报告校准的不确定性。

在 Wayve 的 LingoQA 基准上进行的 28,400 名评委评估中，最有趣的发现并不是更大的封闭模型获胜。但事实并非如此。实验中的最佳评判是Qwen2.5-VL-7B，一个开放的7B视觉语言模型。达到：

皮尔逊 r = 0.857

斯皮尔曼 ρ = 0.856

二次加权科恩 κ = 0.837

MAE = 0.57

故障检测 F1 = 0.712

注意：LingoQA 基准测试是根据非商业许可证发布的。 Wayve 的数据集创建者已授予其在本文中使用的权限。

模型回答正确吗？

例如：

这会产生一个二阶问题：

错误的答案模型等级的法官强大的校准的相关性驾驶 7B 危险的数据集特殊的许可证自动安全的不确定性 LingoQA 为什么开放的变化的传感器分数已知的 Wayve 使用的故障检测故障模式普通的发布的评估评分评估器可用的黄金运送的进行根据