详细内容或原文请订阅后点击阅览
AI模型远离Agi级别的推理:Apple研究人员
AI模型还远离Agi级推理:Martin Young通过Cointelegraph.com撰写的Apple研究人员,开发人工通用情报(AGI)的竞赛仍然很长一段路要走。最近对领先的AI大语言模型(LLM)(例如Openai的Chatgpt和Anthropic的Claude)的最新更新包括大型推理模型(LRMS),但是它们的基本能力,扩展性能和局限性“保持不足”,“仍然不足以理解”他们指出,当前的评估主要集中于既定的数学和编码基准,“强调最终答案的准确性”。但是,这种评估并不能提供对AI模型的推理能力的见解。这项研究与期望人工通用情报距离几年的期望形成鲜明对比。应用研究人员测试“思考” AI模型研究人员设计了不同的益智游戏,以测试Claude Sonnet,Openai的O3-Mini和O1的“思考”和“无思想”的变体,以及DeepSeek-R1和V3 Chatbots,以及超越标准的数学标准的Markems Beench。他们发现“边境LRM面临着超出某些复杂性的完全准确性崩溃”,不要有效地推理推理,并且它们的边缘随着对AGI能力的期望而消失。
来源:Zero Hedge由Martin Young通过Cointelegraph.com撰写,
开发人工通用情报(AGI)的种族仍然有很长的路要走。
最新更新了领先的AI大语言模型(LLM),例如Openai的Chatgpt和Anthropic的Claude,其中包括大型推理模型(LRMS),但它们的基本能力,缩放属性和局限性“保持不足,不足以理解”。
人类的Claude 纸他们指出,当前的评估主要集中于既定的数学和编码基准,“强调最终答案的准确性”。
但是,该评估并不能提供对AI模型推理能力的见解。
这项研究与期望人工通用智能仅几年的时间形成对比。
期望苹果研究人员测试“思考” AI模型
研究人员设计了不同的益智游戏,以测试Claude Sonnet,Openai的O3-Mini和O1的“思维”和“无思维”变体,以及超出标准数学基准的DeepSeek-R1和V3 Chatbots。
他们发现“边境LRM面临着完全准确性的崩溃,超出了某些复杂性”,不要有效地推理推理,并且它们的边缘随着对AGI功能的期望而消失了。
“我们发现LRM在精确的计算中有局限性:它们无法使用明确的算法和跨难题不一致的原因。”
验证最终答案和中间推理轨迹(顶部图表)以及显示非思维模型的图表在低复杂性(底部图表)下更准确。资料来源:苹果机器学习研究
验证最终答案和中间推理轨迹(顶部图表)以及显示非思维模型的图表在低复杂性(底部图表)下更准确。来源: 苹果机器学习研究