OpenAi刚刚发布了GPT-4.5,并说它是其最大,最好的聊天模型

OpenAI刚刚发布了GPT-4.5,这是其旗舰大语言模型的新版本。该公司声称,它是迄今为止全方位聊天的最大和最佳模型。 Openai的研究科学家Mia Glaese说:“对我们来说,这确实是迈出的一步。”由于其所谓的推理模型O1和O3的释放,因此Openai…

来源:MIT Technology Review _人工智能

与诸如O1和O3之类的推理模型(通过答案逐步工作)不同,大多数大型语言模型(例如GPT-4.5)吐出了他们提出的第一个响应。但是GPT-4.5是更通用的。在SimpleQA上测试,这是一项由OpenAI于去年开发的一般知识测验,其中包括有关从科学和技术到电视节目和视频游戏的主题的问题,GPT-4.5分数为62.5%,而GPT-4O的问题为38.6%,O3-Mini的评分为15%。

更重要的是,Openai声称GPT-4.5的反应较少,较少的构成答案(称为幻觉)。在相同的测试中,GPT-4.5的答案是37.1%,而GPT-4O的时间为59.8%,O3米尼的时间为80.3%。

幻觉

但是SimpleQA只是一个基准。在其他测试(包括MMLU)上,是比较大型语言模型的更常见的基准,GPT-4.5击败OpenAI的先前模型较小。在标准科学和数学基准上,GPT-4.5的得分比O3-Mini差。

打开魅力

GPT-4.5的特殊魅力似乎是其对话技巧。 OpenAI雇用的人类测试人员表示,他们更喜欢GPT-4.5而不是GPT-4O,用于日常查询,专业查询和创造性任务,包括提出诗歌。 (Ryder说这在老式的互联网ACSII艺术方面也很棒。)

例如,告诉它您正在经历粗糙的补丁,而GPT-4.5可能会提供几句同情的话:“想谈论发生的事情,或者您只需要分心吗?我在这里。” GPT-4O不太擅长阅读社交线索,无论您是否要求它,都可能试图解决问题,并以弹力加油的方式击中您。

但是,在高峰期之后,Openai面临着艰难的人群。 “对情绪智力和创造力的关注对于小众用例,例如写作教练和头脑风暴的好友,”作家的联合创始人兼首席技术官Waseem Alshikh说。