M2R2:有效变压器推理的多率残差的混合物

残差转换增强了大语言模型(LLMS)的代表性深度和表达能力。但是,在自动回归产生中应用所有代币的静态残差转换会导致推理效率和产生忠诚度之间的次优折衷。现有方法,包括早期退出,跳过解码和深入的混合物,通过根据令牌级的复杂性调节剩余转换来解决此问题。尽管如此,这些方法主要考虑由代币通过模型层所穿越的距离,忽略了…

来源:Apple机器学习研究

残差转换增强了大语言模型(LLMS)的代表性深度和表达能力。但是,在自动回归产生中应用所有代币的静态残差转换会导致推理效率和产生忠诚度之间的次优折衷。现有方法,包括早期退出,跳过解码和深入的混合物,通过根据令牌级的复杂性调节剩余转换来解决此问题。然而,这些方法主要考虑了令牌穿过模型层的距离,从而忽略了残留进化的潜在速度。我们引入了多率残差(M2R2)的混合物,该框架动态调节残差速度以提高早期对齐,并提高推理效率。对以推理为导向的任务进行评估,例如考拉,自我指导,wizardlm和MT板凳表明M2R2超过了最先进的基于距离的策略,平衡了生成质量和加速。在自定义解码设置中,M2R2在MT板凳上最多可实现2.8倍的速度,胜过2模型投机解码,MEDUSA,LookAhead解码和契约等方法。在Experts(MOE)架构的混合物中,将早期的残留对齐与提前的专家负载集成到高宽带宽度内存(HBM)中,加速了解码,减少了专家开关的瓶颈,并实现了2.9倍的速度,使其在资源构成的环境中非常有效。