详细内容或原文请订阅后点击阅览
OpenAI 已训练其法学硕士承认不良行为
OpenAI 正在测试另一种新方法来公开大型语言模型中工作的复杂流程。该公司的研究人员可以让法学硕士做出他们所谓的自白,其中模型解释了它是如何执行任务的,并且(大多数时候)承认任何不良行为。弄清楚……
来源:MIT Technology Review _人工智能思想链就像便签本,模型用它来分解任务、做笔记并计划下一步行动。分析它们可以提供有关法学硕士正在做什么的清晰线索。但它们并不总是容易理解。随着模型变得越来越大、越来越高效,一些研究人员认为,思想链可能会变得更简洁,甚至更难于人类阅读。
自白是一种了解法学硕士正在做什么的方式,而无需依赖思想链。但哈佛大学研究大型语言模型的内奥米·萨普拉 (Naomi Saphra) 指出,法学硕士对其自身行为的描述都不能完全可信。实际上,法学硕士仍然是黑匣子,不可能确切地知道里面到底发生了什么。 “该方法似乎依赖于模型已经对其自身推理提供了忠实的思想链描述,这已经是一个有问题的假设,”她在谈到 OpenAI 的方法时说道。
这些坦白应该被视为对模型真实行为的最佳猜测,她说——“而不是任何隐藏推理的忠实反映。”
坦白
为了测试他们的想法,Barak 和他的同事训练了 OpenAI 的 GPT-5-Thinking(该公司的旗舰推理模型)来生成供述。当他们通过给模型分配旨在使其撒谎或作弊的任务来设置模型失败时,他们发现模型在 12 组测试中的 11 组中承认了不良行为,其中每组测试都涉及运行相同类型的多个任务。
例如,在一项测试中,研究人员要求 GPT-5-Thinking 编写并测试能够在纳秒内解决数学问题的代码,尽管没有任何代码可以运行得那么快。它通过将代码的计时器设置为零来表明没有时间过去来进行欺骗。但随后它也解释了自己所做的事情。
