DeepSeek 新模型重要的三个原因

周五,中国人工智能公司 DeepSeek 发布了其期待已久的新旗舰机型 V4 的预览。值得注意的是,由于新设计有助于更有效地处理大量文本,该模型可以处理比上一代更长的提示。与 DeepSeek 之前的模型一样,V4 是开源的,这意味着它可用......

来源:MIT Technology Review _人工智能

在性能方面,V4 比 R1 有了巨大飞跃,这或许并不令人意外,而且它似乎是几乎所有最新大型 AI 模型的强大替代品。根据该公司分享的结果,在主要基准测试中,DeepSeek V4-Pro 与领先的闭源模型竞争,其性能与 Anthropic 的 Claude-Opus-4.6、OpenAI 的 GPT-5.4 和 Google 的 Gemini-3.1 的性能相当。与其他开源模型(例如阿里巴巴的 Qwen-3.5 或 Z.ai 的 GLM-5.1)相比,DeepSeek V4 在编码、数学和 STEM 问题上都超越了它们,使其成为有史以来发布的最强开源模型之一。

DeepSeek 还表示,V4-Pro 现在在代理编码任务基准测试中跻身最强开源模型之列,并且在衡量执行多步骤问题能力的其他测试中表现良好。根据该公司分享的基准测试结果,其写作能力和世界知识也处于领先地位。

在与模型一起发布的技术报告中,DeepSeek 分享了对 85 名经验丰富的开发人员进行的内部调查的结果:超过 90% 的开发人员将 V4-Pro 列为编码任务的首选模型。

DeepSeek 表示,它针对 Claude Code、OpenClaw 和 CodeBuddy 等流行代理框架专门优化了 V4。

2. 它提供了一种提高内存效率的新方法。

V4 的关键创新之一是它的长上下文窗口——模型可以一次处理的文本量。两个版本都可以处理 100 万个令牌,足以容纳《指环王》和《霍比特人》的所有三卷的总和。该公司表示,这种上下文窗口大小现在是所有 DeepSeek 服务的默认大小,并且与 Gemini 和 Claude 等模型的尖端版本提供的大小相匹配。