我尝试了 GPT-5.4,大多数答案都非常好 - 但有一些让我担心

OpenAI 声称 GPT-5.4 Thinking 可以完成专业任务,但我不太确定这是否完全准确。

来源:ZDNet | 机器人新闻

关注 ZDNET:将我们添加为 Google 上的首选来源。

ZDNET 的关键要点

  • GPT-5.4 Thinking 提供比早期 ChatGPT 模型更深入的分析。
  • 它有很强的推理能力,但有时它会回答你没有问到的问题。
  • 格式和图像生成落后于文本质量。
  • 新的一个月,新的 AI 版本号。它被称为 GPT-5.4 思维。 OpenAI 上周发布的这个最新版本并不是普通的 ChatGPT 增量更新。

    另外:OpenAI 的新 GPT-5.4 在测试中击败了人类的专业级工作 - 83%

    哦,不。在这个版本中,该公司没有从 5.2 跳到 5.3,而是一路跳到了 5.4。该公司没有提供通用版本,而是发布了 GPT-5.4 Thinking,这是一个为更大的想法和挑战而设计的认知能力更强的模型。

    GPT-5.4 Thinking 可用于编程 Codex 工具、API 和付费 ChatGPT 计划。在本文中,我使用了每月 20 美元的 ChatGPT Plus 计划来测试它的性能。

    这给我带来了一些挑战。通常,当我测试 ChatGPT 版本时,我会对其进行一系列混合测试。有些很快,有些则更详细。提示通常只有几行长。这些回复通常适合包含在文章中。

    但这种思维模型需要更深入的研究,以及更全面的挑战。因此,不仅提示更加复杂,而且响应也过于广泛,无法包含在本文中。相反,我提供每个测试会话的链接。当您点击链接时,您将能够深入查看整个响应。通常,共享记录会在记录末尾打开,因此请滚动回顶部以获取该讨论的完整内容。

    另外:如何从 ChatGPT 切换到 Claude:轻松传输您的记忆和设置

    现在,让我们深入研究每个测试。

    测试1:天空中的航母

    您可以在此处关注整个聊天记录。

    测试 3:社会中的社交媒体