ai很快就可以以我们甚至不理解的方式思考 - 逃避我们保持一致的努力

详细内容或原文请订阅后点击阅览

ai很快就可以以我们甚至不理解的方式思考 - 逃避我们保持一致的努力 - 高级AI科学家警告

2025年7月24日 11:00 33 Comments

Google和OpenAI的研究人员以及其他公司都警告说，我们可能无法监视AI的决策过程更长的时间。

来源:LiveScience

地球上一些最先进的人工智能（AI）背后的研究人员警告说，他们帮助创建的系统可能对人类构成风险。

人工智能

在包括Google DeepMind，OpenAI，Meta，Anthropic和其他公司在内的公司工作的研究人员认为，对AI的推理和决策过程缺乏监督可能意味着我们错过了恶性行为的迹象。

在7月15日发表的新研究中，研究人员强调了思想链（COT） - 大型语言模型（LLMS）在解决复杂问题时采取的步骤。 AI模型使用COTS将高级查询分解为以自然语言表达的中间逻辑步骤。

arxiv

该研究的作者认为，监测过程中的每个步骤可能是建立和维持AI安全性的关键层。

监视此COT过程可以帮助研究人员了解LLM如何做出决策，更重要的是，为什么它们与人类的利益不一致。它还有助于确定他们为什么根据错误或不存在的数据提供输出，或者为什么误导我们。

但是，在监视此推理过程时有几个局限性，这意味着这种行为可能会通过裂缝。

相关：AI现在可以复制自己 - 一个具有专家恐惧的里程碑

相关： AI现在可以复制自己 - 一个让专家恐惧的里程碑

将世界上最有趣的发现直接传递到您的收件箱中。

“在人类语言中'思考'的AI系统为AI安全提供了独特的机会，”该科学家在研究中写道。 “我们可以监视他们的思想链条，以指示目的。与所有其他已知的AI监督方法一样，COT监控是不完美的，并且使某些人行为不引人注目。”

步骤监督不完美所有其他局限性不存在 COT 先进的科学家人工智能不一致传递推理根据不完美的过程背后的为什么保持警惕研究的复杂问题研究人员工作的里程碑在内的 AI 更重要的人类研究系统意味着监视独特的可能重要的已知的安全性