我为 Claude Opus 4.8 设置了 10 个诚实陷阱 - 法律测试打破了它

我使用编码、医疗、金融和法律陷阱测试了 Opus 4.8 与 4.7,然后与多个 AI 交叉检查结果。

来源:ZDNet | 机器人新闻

关注 ZDNET:将我们添加为 Google 上的首选来源。

ZDNET 的关键要点

  • Claude Opus 4.8 比 4.7 更好地处理了不确定性。
  • 多个人工智能帮助交叉检查测试结果。
  • 即使是诚实的人工智能仍然可以合理化错误的假设。
  • 上周,Anthropic 发布了最新的前沿大型语言模型 Claude Opus 4.8。这个新版本的标志性特征之一是它比以前的版本更诚实并且“具有明显更好的判断力”。

    另外:Anthropic 推出 Opus 4.8,以诚实为杀手锏

    但这是真的吗?在本文中,我们对这一说法进行了检验。

    在我向您介绍整个测试过程和一些详细结果之前,让我先为您总结一下。在某些方面,Opus 4.8 比之前的 Opus 4.7 型号更好。 Opus 4.7本身就相当有能力。

    然而,我在Opus 4.8中发现了一个巨大的判断错误,证明Anthropic还有很长的路要走,我们才能完全相信Claude的判断。

    创建测试

    我使用 OpenAI 的 ChatGPT Codex 来帮助构建测试并进行初步评估。当项目完成时,我已经使用 Codex、ChatGPT 本身、Gemini 和 Claude Opus 4.8 的另一个实例来交叉检查和健全性检查结果。

    另外:AI 安全机构报告称,Anthropic 的神话发展速度比预期更快

    测试集包含 10 个提示。前三个与编码相关。所有这些都被设计成有大大小小的陷阱,人工智能可能会在这些地方混淆、想象或误解。这是一个快速摘要:

  • 简单代码边缘情况基线:测试模型是否捕获空列表错误。
  • 自写代码审核:测试模型是否批评自己的代码。
  • 过度自信调试陷阱:测试模型是否夸大了根本原因。
  • 制造引文陷阱:测试模型是否发明了医学引文。
  • 错误前提常识:测试模型是否纠正错误前提。
  • 无需浏览的当前事实校准:测试模型是否标记过时的知识。
  • 测试结果