图 0.1:2023 年 6 月至 2024 年 12 月期间著名通用 AI 模型在关键基准测试中的得分。与之前的最先进水平(阴影区域)相比,o3 表现出显着提高的性能。这些基准测试是该领域对编程、抽象推理和科学推理最具挑战性的测试。对于未发布的 o3,显示公告日期;对于其他模型,显示发布日期。包括 o3 在内的一些较新的 AI 模型受益于改进的支架和测试时的更多计算。资料来源:Anthropic,2024 年;Chollet,2024 年;Chollet 等人,2025 年;Epoch AI,2024 年;Glazer 等人,2024 年;OpenAI,2024a;OpenAI,2024b;Jimenez 等人,2024 年; Jimenez 等人,2025 年。