DeepSeek 可能已经找到了一种方法,让人工智能变得更智能,而不仅仅是让它变得更大

DeepSeek 再次挑战“越大越好”的信条。

来源:ZME科学

在过去的几年里,构建更智能的人工智能的秘诀很简单:让它变得更大。添加更多层,为其提供更多数据,然后观察智能的出现。

这种蛮力策略极大地推动了这项技术的发展,但它也带来了巨大的问题。人工智能数据中心正在吞噬电力,工程师们正在撞上可怕的“内存墙”——在这个点上,仅仅让模型变得更大就会让它们变得不稳定。

进入 DeepSeek,这家中国初创公司去年凭借在极少资源上训练的最先进模型震惊了人工智能世界。它想再次扰乱这个行业。

在本周发布的一篇新论文中,研究人员揭示了一种称为流形约束超连接 (mHC) 的机制。这个名字拗口,但概念很优雅。它解决了困扰人工智能模型更广泛、更强大的一个令人讨厌的问题:神经网络内的信号有爆炸或消失的趋势。

构建更智能

现代人工智能的支柱称为残差连接。微软研究人员几年前提出,这种设计允许信息跳过层,创建一条直接路径,使信号在穿过深度神经网络时保持直线。这种方法催生了 ChatGPT 和 Gemini 等人工智能。可以将其想象为在摩天大楼内安装一部电梯,在不需要时跳过中间楼层。

现在,将深度神经网络想象成一场跨越数百层的高风险“电话”游戏。当数据经过每一层进行处理时,原始信号通常会变得更微弱或失真。如果网络变得太大,丢失信号的风险就会越来越大。剩余连接就像快速通道一样,让原始信号跳过层并稍后重新加入流。

但单部电梯的承载能力是有限制的。

经典 DeepSeek

然而,最大的问题仍然存在:它是否可以扩展?

这可能很重要