ParaRNN:大规模非线性 RNN,可并行训练

递归神经网络 (RNN) 天生适合高效推理,与基于注意力的架构相比,所需的内存和计算量要少得多,但其计算的顺序性历来使得将 RNN 扩展到数十亿个参数是不切实际的。 Apple 研究人员的一项新进展使 RNN 训练的效率显着提高 - 首次实现大规模训练,并扩大了从业者在设计 LLM 时可用的架构选择集,特别是对于资源受限的部署。在 ParaRNN:解锁并行训练......

来源:Apple机器学习研究

递归神经网络 (RNN) 天生适合高效推理,与基于注意力的架构相比,所需的内存和计算量要少得多,但其计算的顺序性历来使得将 RNN 扩展到数十亿个参数是不切实际的。 Apple 研究人员的一项新进展使 RNN 训练的效率显着提高,首次实现了大规模训练,并扩大了从业者在设计 LLM 时可用的架构选择集,特别是对于资源受限的部署。

在《ParaRNN:解锁大型语言模型非线性 RNN 的并行训练》(ParaRNN:解锁大型语言模型非线性 RNN 的并行训练)中,Apple 研究人员以 Oral 形式接受 ICLR 2026 的新论文,其中,Apple 研究人员分享了一个用于并行 RNN 训练的新框架,该框架比传统顺序方法实现了 665 倍的加速(见图 1)。这种效率增益使得能够训练第一个 70 亿参数的经典 RNN,从而实现与 Transformer 相媲美的语言建模性能(见图 2)。

为了加速高效序列建模的研究,并使研究人员和从业者能够大规模探索新的非线性 RNN 模型,ParaRNN 代码库已作为非线性 RNN 自动训练并行化的开源框架发布。

并行 RNN 训练的加速

大规模经典 RNN 的性能

Transformer 中注意力机制的计算成本随序列长度呈二次方增长,而无论之前有多少上下文,通过 RNN 的单次前向传递所需的计算都是相同的。这使得推理过程中能够生成恒定时间的令牌,使它们对于高效部署特别有吸引力。

但有一个问题:这种效率优势仅适用于推理时间。与 Transformer 不同,RNN 训练无法沿序列长度并行化。

RNN 和 Attention 之间的基本权衡

而经典 RNN 包含非线性:

↑ Arc-C

(25)   (3)