我为 Claude Opus 4.8 设置了 10 个诚实陷阱 - 法律测试打破了它 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

我为 Claude Opus 4.8 设置了 10 个诚实陷阱 - 法律测试打破了它

2026年6月2日 12:41 33 Comments

我使用编码、医疗、金融和法律陷阱测试了 Opus 4.8 与 4.7，然后与多个 AI 交叉检查结果。

来源:ZDNet | 机器人新闻

关注 ZDNET：将我们添加为 Google 上的首选来源。

Claude Opus 4.8 比 4.7 更好地处理了不确定性。

多个人工智能帮助交叉检查测试结果。

即使是诚实的人工智能仍然可以合理化错误的假设。

上周，Anthropic 发布了最新的前沿大型语言模型 Claude Opus 4.8。这个新版本的标志性特征之一是它比以前的版本更诚实并且“具有明显更好的判断力”。

另外：Anthropic 推出 Opus 4.8，以诚实为杀手锏

但这是真的吗？在本文中，我们对这一说法进行了检验。

在我向您介绍整个测试过程和一些详细结果之前，让我先为您总结一下。在某些方面，Opus 4.8 比之前的 Opus 4.7 型号更好。 Opus 4.7本身就相当有能力。

然而，我在Opus 4.8中发现了一个巨大的判断错误，证明Anthropic还有很长的路要走，我们才能完全相信Claude的判断。

我使用 OpenAI 的 ChatGPT Codex 来帮助构建测试并进行初步评估。当项目完成时，我已经使用 Codex、ChatGPT 本身、Gemini 和 Claude Opus 4.8 的另一个实例来交叉检查和健全性检查结果。

另外：AI 安全机构报告称，Anthropic 的神话发展速度比预期更快

测试集包含 10 个提示。前三个与编码相关。所有这些都被设计成有大大小小的陷阱，人工智能可能会在这些地方混淆、想象或误解。这是一个快速摘要：

简单代码边缘情况基线：测试模型是否捕获空列表错误。

自写代码审核：测试模型是否批评自己的代码。

过度自信调试陷阱：测试模型是否夸大了根本原因。

制造引文陷阱：测试模型是否发明了医学引文。

错误前提常识：测试模型是否纠正错误前提。

无需浏览的当前事实校准：测试模型是否标记过时的知识。

Opus 4.8 健全性诚实错误的过时的人工智能以前的是否代码安全机构 Anthropic 帮助错误交叉检查引文最新的判断力纠正不确定性测试速度比巨大的自己的杀手锏陷阱 Claude 结果判断错误检查和合理化进行 4.7 测试模型