None

经过 10 次文本和 4 次图像测试,OpenAI 的最新模型勉强击败了 GPT-5.1。 Plus 订阅者真正得到了什么?

来源:ZDNet | 机器人新闻

关注 ZDNET:将我们添加为 Google 上的首选来源。

ZDNET 的关键要点

  • 尽管需要 Plus 订阅,但 GPT-5.2 的性能勉强优于 GPT-5.1
  • 强有力的写作和分析与令人失望的编码回归形成鲜明对比。
  • 新的简洁性和信号行为可能会让专业用户感到沮丧。
  • OpenAI 发布了最新的 ChatGPT 模型 GPT-5.2。据该公司称,这是“迄今为止最适合专业知识工作的模型系列”。

    自 2023 年生成式 AI 热潮开始以来,我对新产品和新版本进行了一系列可重复的测试。 ZDNET 定期测试聊天机器人的编程能力、整体性能以及各种 AI 内容检测器的性能。

    另外:Gemini 与 Copilot:我在 7 项日常任务上测试了人工智能工具,结果甚至相差甚远

    (披露:ZDNET 的母公司 Ziff Davis 于 2025 年 4 月对 OpenAI 提起诉讼,指控其在训练和运营其人工智能系统时侵犯了 Ziff Davis 的版权。)

    那么,让我们对 OpenAI 的最新模型进行一些测试,好吗?

    测试 GPT-5.2

    最近,我对顶级免费聊天机器人进行了一系列 10 项文本相关测试(每项 10 分)和 4 项图像相关测试(每项 5 分),总共 120 分。 ChatGPT 的免费套餐以 109 分的总分领先。

    请注意,ChatGPT 的免费层尚不支持 GPT-5.2。当我使用免费测试帐户登录并询问 AI 使用的是什么模型时,我被告知,“您当前正在与基于 GPT-5.1 的 ChatGPT 进行对话。”

    因此,我的所有测试都将在 20 美元/月的 ChatGPT Plus 级别进行。

    测试 1:总结新闻报道

  • 可用积分:10
  • 获得积分:9
  • 这测试了 ChatGPT 查找当前信息和遵循指示的能力。我指示它通过访问雅虎新闻来总结华盛顿州的洪水故事。

    另外:从 AI 获取新闻吗?小心 - 几乎一半的时间都是错误的

    测试2:学术概念解释

  • 奖励积分:10
  • 测试 3:数学和分析

    测试 4:文化讨论

    图像测试