MoE 比您想象的更强大:使用 RoE 进行超并行推理扩展

大型语言模型 (LLM) 的生成质量通常可以通过利用推理时间序列级缩放方法(例如思想链)来提高。我们引入了超并行扩展,这是一种补充框架,可以提高令牌级别的预测质量。超并行扩展计算并聚合模型中单个令牌的多个输出建议。我们在专家混合 (MoE) 模型中实现这一概念,我们将其称为专家名册 (RoE)。 RoE 是一种免训练推理算法,可将单个 MoE 转变为 MoE 的动态集合。投资回报率...

来源:Apple机器学习研究

大型语言模型 (LLM) 的生成质量通常可以通过利用推理时间序列级缩放方法(例如思想链)来提高。我们引入了超并行扩展,这是一种补充框架,可以提高令牌级别的预测质量。超并行扩展计算并聚合模型中单个令牌的多个输出建议。我们在专家混合 (MoE) 模型中实现这一概念,我们将其称为专家名册 (RoE)。 RoE 是一种免训练推理算法,可将单个 MoE 转变为 MoE 的动态集合。 RoE 将受控随机性注入专家路由机制,使其能够为每个代币对多个不同的专家进行采样,并聚合他们的输出以获得更准确的最终预测。为了克服计算成本,我们引入了高效的批处理策略和专门的 KV 缓存机制,可以最大限度地减少计算和内存开销。例如,RoE 使 7B MoE 模型能够与 10.5B MoE 模型的性能相匹配,同时推理计算量减少 30%。这些增益是在没有对模型参数进行任何微调的情况下实现的。

  • † 加州大学圣地亚哥分校