详细内容或原文请订阅后点击阅览
DeepSeek 如何撕毁 AI 剧本——以及为什么每个人都会效仿它
上周,中国公司 DeepSeek 推出了一款名为 R1 的大型语言模型,这在美国科技界引起了震动。R1 不仅与本土竞争对手中最好的产品相媲美,而且成本仅为其一小部分——并且免费提供。美国股市损失 1 万亿美元,总统……
来源:MIT Technology Review _人工智能还有更多。为了尽可能高效地使用强化学习,DeepSeek 还开发了一种名为 Group Relative Policy Optimization (GRPO) 的新算法。它在一年前首次使用 GRPO 构建了一个名为 DeepSeekMath 的模型。
我们就不说细节了——你只需要知道强化学习涉及计算分数来确定潜在动作是好是坏。许多现有的强化学习技术需要一个完全独立的模型来进行这种计算。对于大型语言模型,这意味着第二个模型的构建和运行成本可能与第一个模型一样高。GRPO 不使用第二个模型来预测分数,而是做出有根据的猜测。它很便宜,但仍然足够准确。
详细信息一种常见的方法
一种常见的方法DeepSeek 对强化学习的使用是该公司在其 R1 论文中描述的主要创新。但 DeepSeek 并不是唯一一家尝试这种技术的公司。在 R1 发布前两周,微软亚洲的一个团队宣布了一个名为 rStar-Math 的模型,该模型的训练方式与 R1 类似。人工智能公司 Clarifai 的创始人兼首席执行官 Matt Zeiler 表示:“它的性能同样有巨大的飞跃。”
AI2 的 Tulu 也是使用高效的强化学习技术构建的(但它是在监督微调和 RLHF 等人类主导的步骤之上,而不是取而代之)。而美国公司 Hugging Face 正竞相用 OpenR1 复制 R1,这是 DeepSeek 模型的克隆,Hugging Face 希望它能揭示 R1 的更多秘诀。
更重要的是,OpenAI、Google DeepMind 和 Anthropic 等顶级公司可能已经在使用他们自己的 DeepSeek 方法来训练他们的新一代模型,这已经是众所周知的秘密了。 “我确信他们做的事情几乎一模一样,但他们有自己的特色,”Zeiler 说道。