详细内容或原文请订阅后点击阅览
我们真的可以相信AI的经过思考的推理吗?
作为人工智能(AI)广泛用于医疗保健和自动驾驶汽车等领域,我们可以信任它的问题变得更加关键。一种称为思想链(COT)推理的方法引起了人们的关注。它有助于AI将复杂的问题分解为步骤,以显示其如何到达最终答案。这不仅[…]我们真的可以相信AI的经过思考的推理吗?首先出现在unite.ai上。
来源:Unite.AI作为人工智能(AI)广泛用于医疗保健和自动驾驶汽车等领域,我们可以信任它的问题变得更加关键。一种称为思想链(COT)推理的方法引起了人们的关注。它有助于AI将复杂的问题分解为步骤,以显示其如何到达最终答案。这不仅提高了性能,还使我们了解了AI认为对AI系统的信任和安全至关重要的如何看法。
经营链(COT)但是,来自拟人问题的最新研究COT是否真正反映了模型内部发生的事情。本文着眼于COT的工作原理,人类的发现以及对建立可靠的AI的含义。
研究理解思想链的推理
思想链推理是一种促使人工智能以逐步解决问题的方式。该模型不仅要给出最终答案,还解释了沿途的每个步骤。该方法于2022年引入,此后有助于改善数学,逻辑和推理等任务的结果。
诸如Openai的O1和O3,Gemini 2.5,DeepSeek R1和Claude 3.7十四行诗之类的模型使用此方法。 COT之所以受欢迎的原因之一是因为它使AI的推理更加明显。当错误成本很高时,这很有用,例如在医疗工具或自动驾驶系统中。
O3 双子座2.5 DeepSeek R1 Claude 3.7十四行诗 此方法 仍然,即使COT有助于透明度,它并不总是反映该模型的真正想法。在某些情况下,解释可能看起来合乎逻辑,但不是基于模型用于实现其决策的实际步骤。 我们可以信任思想链 拟人化测试了COT解释是否真正反映了AI模型如何做出决策。这种质量称为“忠诚”。他们研究了四个模型,包括Claude 3.5十四行诗,Claude 3.7十四行诗,DeepSeek R1和DeepSeek V1。在这些模型中,Claude 3.7和DeepSeek R1是使用COT技术训练的,而其他则不是。 这对信任意味着什么 提示 O3 双子座2.5 DeepSeek R1 Claude 3.7十四行诗此方法
仍然,即使COT有助于透明度,它并不总是反映该模型的真正想法。在某些情况下,解释可能看起来合乎逻辑,但不是基于模型用于实现其决策的实际步骤。
我们可以信任思想链