为什么复杂的推理模型可以让行为不当的人工智能更容易被发现

在 OpenAI 的一篇新论文中,该公司提出了一个框架,用于分析人工智能系统的思维链推理,以了解它们如何、何时以及为何行为不当。

来源:ZDNet | 机器人新闻

关注 ZDNET:将我们添加为 Google 上的首选来源。

ZDNET 的关键要点

  • OpenAI 发表了一篇名为“Monitoring Monitorability”的新论文。
  • 它提供了检测模型推理中危险信号的方法。
  • 不过,这些不应被误认为是银弹解决方案。
  • 为了构建真正符合人类利益的人工智能,研究人员应该能够在模型仍在通过其响应“思考”时标记不当行为,而不是仅仅等待最终输出 - 到那时,想要扭转损害可能为时已晚。这至少是 OpenAI 一篇新论文背后的前提,该论文引入了一个早期框架,用于监控模型如何通过所谓的“思想链”(CoT)推理得出给定的输出。

    周四发表的论文重点讨论了“可监控性”,其定义为人类观察者或人工智能系统根据其 CoT 推理对模型行为做出准确预测的能力。根据这种观点,在完美的世界中,试图撒谎或欺骗人类用户的模型将无法做到这一点,因为我们拥有分析工具来捕捉它的行为并进行干预。

    另外:OpenAI 正在训练模型在撒谎时“坦白”——这对未来的 AI 意味着什么

    主要发现之一是 CoT 输出长度与可监控性之间的相关性。换句话说,模型对其推理过程的逐步解释越长、越详细,就越容易准确预测其输出(尽管此规则也有例外)。

    (披露:ZDNET 的母公司 Ziff Davis 于 2025 年 4 月对 OpenAI 提起诉讼,指控其在训练和运营其人工智能系统时侵犯了 Ziff Davis 的版权。)

    目标

    另外:你最喜欢的人工智能工具几乎没有通过这次安全审查 - 为什么这是一个问题

    三管齐下

    在其新论文中,OpenAI 介绍了用于监控模型 CoT 输出的三种“原型”:

    流程:重点是确定模型输出的准确性。

    研究结果