M2R2关键词检索结果

M2R2:有效变压器推理的多率残差的混合物

M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference

残差转换增强了大语言模型(LLMS)的代表性深度和表达能力。但是,在自动回归产生中应用所有代币的静态残差转换会导致推理效率和产生忠诚度之间的次优折衷。现有方法,包括早期退出,跳过解码和深入的混合物,通过根据令牌级的复杂性调节剩余转换来解决此问题。尽管如此,这些方法主要考虑由代币通过模型层所穿越的距离,忽略了…