获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference
残差转换增强了大语言模型(LLMS)的代表性深度和表达能力。但是,在自动回归产生中应用所有代币的静态残差转换会导致推理效率和产生忠诚度之间的次优折衷。现有方法,包括早期退出,跳过解码和深入的混合物,通过根据令牌级的复杂性调节剩余转换来解决此问题。尽管如此,这些方法主要考虑由代币通过模型层所穿越的距离,忽略了…