Duo-LLM:用于研究大型语言模型中的自适应计算的框架

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。大型语言模型 (LLM) 通常使用固定的计算预算逐个生成输出,导致资源利用率低下。为了解决这一缺点,混合专家 (MoE) 模型、推测解码和早期退出策略方面的最新进展利用了计算需求可能根据输入的复杂性和性质而有很大差异的洞察力。然而,确定动态执行的最佳路由模式仍然是一个开放的问题……

来源:Apple机器学习研究

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。

大型语言模型 (LLM) 通常使用固定的计算预算逐个生成输出,导致资源利用率低下。为了解决这一缺点,混合专家 (MoE) 模型、推测解码和早期退出策略方面的最新进展利用了计算需求可能根据输入的复杂性和性质而有很大差异的洞察力。然而,确定动态执行的最佳路由模式仍然是一个悬而未决的挑战,限制了这些自适应方法的全部潜力。为了满足这一需求,我们更系统地研究了 LLM 中的自适应计算。我们提出了一个新颖的框架,将较小的辅助模块集成到 LLM 的每个前馈网络层中。这种设计可以根据任务复杂性动态路由 token:token 可以由每一层的小模块或大模块处理,甚至可以完全绕过某些层。这使我们能够引入一个 token 难度的新概念,该概念由其从额外计算资源中受益的潜力来定义。重要的是,通过使用 oracle 来识别自适应计算的最佳模式,我们可以深入了解 LLM 的内部工作原理以及简化的异构 MoE 设置中的路由过程。我们表明,经过训练的路由器的运行方式与 oracle 不同,并且通常会产生次优解决方案。值得注意的是,仅在一层中激活大型模块的性能优于在所有层中使用大型模块的模型,这突显了 MoE 模型中路由的实际实现与自适应计算的理论最优值之间的差距。