详细内容或原文请订阅后点击阅览
我要求 ChatGPT、Claude 和 DeepSeek 构建俄罗斯方块
这些最先进的模型中哪一个可以编写最好的代码?
来源:KDnuggets简介
似乎几乎每周都会有一个新模型声称是最先进的,在所有基准测试中都击败了现有的人工智能模型。
在发布后的几周内,我可以在我的全职工作中免费访问最新的 AI 模型。我通常不太关注炒作,只是使用系统自动选择的模型。
但是,我认识一些开发人员和朋友,他们希望使用 AI 构建可以投入生产的软件。由于这些举措是自筹资金的,因此它们面临的挑战在于找到完成这项工作的最佳模式。他们希望平衡成本与可靠性。
因此,在 GPT-5.2 发布后,我决定进行一次实际测试,以了解该模型是否值得炒作,以及它是否真的比竞争对手更好。
具体来说,我选择测试各个提供商的旗舰模型:Claude Opus 4.5(Anthropic 最强大的模型)、GPT-5.2 Pro(OpenAI 最新的扩展推理模型)和 DeepSeek V3.2(最新的开源替代品之一)。
为了测试这些模型,我选择让他们通过单个提示构建一个可玩的俄罗斯方块游戏。
这些是我用来评估每个模型成功与否的指标:
提示
这是我在每个AI模型中输入的提示:
将功能齐全的俄罗斯方块游戏构建为单个 HTML 文件,我可以直接在浏览器中打开该文件。
要求:
游戏机制:
- 所有 7 种俄罗斯方块类型
- 通过墙踢碰撞检测实现平滑的棋子旋转
- 棋子应该自动掉落,随着用户得分的增加逐渐增加速度
- 带有视觉动画的线条清理
- “下一首”预览框
- 当棋子到达顶部时检测游戏结束
控件:
- 箭头键:左/右移动,向下下降更快,向上旋转
- 移动设备触摸控制:向左/向右滑动可移动,向下滑动可放下,点击可旋转
- 空格键暂停/取消暂停
- 游戏结束后输入键重新启动
视觉设计:
- 每种类型的渐变颜色
- 当棋子移动且线条清晰时平滑的动画
- 级别指示器
