您的LLM知道未来:揭示其多token预测潜力

自回归语言模型受其固有的顺序性质的约束,一次产生一个令牌。该范式限制了推理速度和并行性,尤其是在生成阶段的文本方向和语义相对确定时。在这项工作中,我们提出了一个新颖的框架,该框架利用了关于未来令牌的香草自回归语言模型的固有知识,结合了技术来实现这一潜力并能够同时预测随后多个令牌。我们的方法介绍了几项关键创新:(1)A…

来源:Apple机器学习研究

自回归语言模型受其固有的顺序性质的约束,一次产生一个令牌。该范式限制了推理速度和并行性,尤其是在生成阶段的文本方向和语义相对确定时。在这项工作中,我们提出了一个新颖的框架,该框架利用了关于未来令牌的香草自回归语言模型的固有知识,结合了技术来实现这一潜力并能够同时预测随后多个令牌。我们的方法介绍了几项关键创新:(1)蒙版输入公式,其中多个未来代币可以从共同的前缀共同预测; (2)一个封闭式的Lora公式,可保留原始LLM的功能,同时将其装备用于多token预测; (3)一个轻巧的可学习的采样器模块,该模块从预测的未来令牌中生成相干序列; (4)一组辅助训练损失,包括一致性损失,以提高共同产生的令牌的连贯性和准确性; (5)一种投机策略,将来在保持高保真度的同时,在将来四次扩展令牌。我们的方法通过对验证的模型进行的微调来实现重大加速。例如,它生成代码和数学的速度近5倍,并将一般聊天和知识任务提高了几乎2.5倍。这些收益质量不会损失。