我要求 ChatGPT、Claude 和 DeepSeek 构建俄罗斯方块

这些最先进的模型中哪一个可以编写最好的代码?

来源:KDnuggets

简介

似乎几乎每周都会有一个新模型声称是最先进的,在所有基准测试中都击败了现有的人工智能模型。

在发布后的几周内,我可以在我的全职工作中免费访问最新的 AI 模型。我通常不太关注炒作,只是使用系统自动选择的模型。

但是,我认识一些开发人员和朋友,他们希望使用 AI 构建可以投入生产的软件。由于这些举措是自筹资金的,因此它们面临的挑战在于找到完成这项工作的最佳模式。他们希望平衡成本与可靠性。

因此,在 GPT-5.2 发布后,我决定进行一次实际测试,以了解该模型是否值得炒作,以及它是否真的比竞争对手更好。

具体来说,我选择测试各个提供商的旗舰模型:Claude Opus 4.5(Anthropic 最强大的模型)、GPT-5.2 Pro(OpenAI 最新的扩展推理模型)和 DeepSeek V3.2(最新的开源替代品之一)。

为了测试这些模型,我选择让他们通过单个提示构建一个可玩的俄罗斯方块游戏。

这些是我用来评估每个模型成功与否的指标:

提示

这是我在每个AI模型中输入的提示:

将功能齐全的俄罗斯方块游戏构建为单个 HTML 文件,我可以直接在浏览器中打开该文件。

要求:

游戏机制:

- 所有 7 种俄罗斯方块类型

- 通过墙踢碰撞检测实现平滑的棋子旋转

- 棋子应该自动掉落,随着用户得分的增加逐渐增加速度

- 带有视觉动画的线条清理

- “下一首”预览框

- 当棋子到达顶部时检测游戏结束

控件:

- 箭头键:左/右移动,向下下降更快,向上旋转

- 移动设备触摸控制:向左/向右滑动可移动,向下滑动可放下,点击可旋转

- 空格键暂停/取消暂停

- 游戏结束后输入键重新启动

视觉设计:

- 每种类型的渐变颜色

- 当棋子移动且线条清晰时平滑的动画

- 级别指示器