详细内容或原文请订阅后点击阅览
DiffuJudge-AV:用于校准 AV 视频评估的扩散启发框架
一种受扩散启发的框架,用于压力测试和降噪 LLM-as-a-Judge 管道,应用于安全关键的驾驶视频。后 DiffuJudge-AV:用于校准 AV 视频评估的扩散启发框架首先出现在走向数据科学上。
来源:走向数据科学就像一个嘈杂的传感器。它改变了我要运送的自动驾驶评估器。
有一种特殊的结果看起来令人印象深刻,直到您提出错误的第二个问题。
在这个项目中,纯文本 Claude 法官对自动驾驶视觉 QA 答案进行评分时,皮尔逊相关性为 0.753。乍一看,这看起来像是一个可用的评估器。它追踪黄金分数,它产生理由,它是一个强大的封闭模型。足以对模型输出进行分类,对吧?
然后我查看了二次加权的科恩 κ。是 0.057。
那是项目发生变化的时刻。法官与黄金标签具有等级相关性,但其行为并不像普通安全评估员。它已经学会了看起来最安全的故障模式:将几乎所有内容压缩到 1-5 等级的中间。对于普通的基准报告来说,这可能会被忽视。对于需要在软件发布之前标记错误答案的自动驾驶审核流程来说,这是危险的。
因此,我构建了 DiffuJudge-AV,这是一个针对驾驶视频的 LLM/VLM 评委的小型评估评估框架。这个想法很简单:将法官的分数视为对潜在真实评分的嘈杂观察,故意让法官接触已知的评分偏差来源,然后使用一步 Tweedie 后验均值对所得分数分布进行去噪,并报告校准的不确定性。
在 Wayve 的 LingoQA 基准上进行的 28,400 名评委评估中,最有趣的发现并不是更大的封闭模型获胜。但事实并非如此。实验中的最佳评判是Qwen2.5-VL-7B,一个开放的7B视觉语言模型。达到:
注意:LingoQA 基准测试是根据非商业许可证发布的。 Wayve 的数据集创建者已授予其在本文中使用的权限。
为什么要“评价评价”?
模型回答正确吗?
例如:
这会产生一个二阶问题:
/
