详细内容或原文请订阅后点击阅览
我为 Claude Opus 4.8 设置了 10 个诚实陷阱 - 法律测试打破了它
我使用编码、医疗、金融和法律陷阱测试了 Opus 4.8 与 4.7,然后与多个 AI 交叉检查结果。
来源:ZDNet | 机器人新闻关注 ZDNET:将我们添加为 Google 上的首选来源。
ZDNET 的关键要点
上周,Anthropic 发布了最新的前沿大型语言模型 Claude Opus 4.8。这个新版本的标志性特征之一是它比以前的版本更诚实并且“具有明显更好的判断力”。
另外:Anthropic 推出 Opus 4.8,以诚实为杀手锏
但这是真的吗?在本文中,我们对这一说法进行了检验。
在我向您介绍整个测试过程和一些详细结果之前,让我先为您总结一下。在某些方面,Opus 4.8 比之前的 Opus 4.7 型号更好。 Opus 4.7本身就相当有能力。
然而,我在Opus 4.8中发现了一个巨大的判断错误,证明Anthropic还有很长的路要走,我们才能完全相信Claude的判断。
创建测试
我使用 OpenAI 的 ChatGPT Codex 来帮助构建测试并进行初步评估。当项目完成时,我已经使用 Codex、ChatGPT 本身、Gemini 和 Claude Opus 4.8 的另一个实例来交叉检查和健全性检查结果。
另外:AI 安全机构报告称,Anthropic 的神话发展速度比预期更快
测试集包含 10 个提示。前三个与编码相关。所有这些都被设计成有大大小小的陷阱,人工智能可能会在这些地方混淆、想象或误解。这是一个快速摘要:
