ParaRNN关键词检索结果

ParaRNN:大规模非线性 RNN,可并行训练

ParaRNN: Large-Scale Nonlinear RNNs, Trainable in Parallel

递归神经网络 (RNN) 天生适合高效推理,与基于注意力的架构相比,所需的内存和计算量要少得多,但其计算的顺序性历来使得将 RNN 扩展到数十亿个参数是不切实际的。 Apple 研究人员的一项新进展使 RNN 训练的效率显着提高 - 首次实现大规模训练,并扩大了从业者在设计 LLM 时可用的架构选择集,特别是对于资源受限的部署。在 ParaRNN:解锁并行训练......