DeepSeek 对能源来说可能并不是一个好消息

自从一个名为 DeepSeek 的中国 AI 模型成为家喻户晓的名字以来,一周内出现了大量的说法,准确程度各不相同:该模型正在收集您的个人数据(可能);它将颠覆我们所知的人工智能(现在说还为时过早——但请阅读我同事威尔的故事……

来源:MIT Technology Review _人工智能

此外,其他科技公司受到 DeepSeek 方法的启发,现在可能开始构建自己的类似低成本推理模型,能源消耗的前景已经看起来不那么乐观了。

已经看

任何人工智能模型的生命周期都有两个阶段:训练和推理。训练通常是一个长达数月的过程,模型从数据中学习。然后,模型就可以进行推理了,每次世界上有人问它问题时,都会发生这种情况。两者通常都在数据中心进行,在那里它们需要大量能源来运行芯片和冷却服务器。

在 R1 模型的训练方面,DeepSeek 团队改进了所谓的“专家混合”技术,其中模型的数十亿个参数中只有一部分(模型用来形成更好答案的“旋钮”)在训练期间的特定时间打开。更值得注意的是,他们改进了强化学习,即对模型的输出进行评分,然后将其用于改进。这通常由人工注释者完成,但 DeepSeek 团队擅长将其自动化。

自动化

引入一种使训练更高效的方法可能意味着人工智能公司将使用更少的能源来使其人工智能模型达到一定的标准。但事实并非如此。

“因为拥有一个更智能的系统的价值如此之高,”Anthropic 联合创始人 Dario Amodei 在他的博客上写道,“这导致公司在训练模型上花费更多,而不是更少。”如果公司能物有所值,他们会发现花更多的钱是值得的,因此会使用更多的能源。“成本效率的提高最终完全用于训练更智能的模型,只受公司财务资源的限制,”他写道。这是所谓的杰文斯悖论的一个例子。

写道 更多

但只要人工智能竞赛还在进行,训练方面的情况就一直如此。推理所需的能量才是事情变得更有趣的地方。