获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
ParaRNN: Large-Scale Nonlinear RNNs, Trainable in Parallel
递归神经网络 (RNN) 天生适合高效推理,与基于注意力的架构相比,所需的内存和计算量要少得多,但其计算的顺序性历来使得将 RNN 扩展到数十亿个参数是不切实际的。 Apple 研究人员的一项新进展使 RNN 训练的效率显着提高 - 首次实现大规模训练,并扩大了从业者在设计 LLM 时可用的架构选择集,特别是对于资源受限的部署。在 ParaRNN:解锁并行训练......