详细内容或原文请订阅后点击阅览
面向张量并行 LLM 推理的低位通信
这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。张量并行提供了一种提高服务器大型语言模型 (LLM) 推理效率的有效方法,尽管增加了额外的通信成本。然而,随着服务器 LLM 规模不断扩大,它们将需要分布在更多设备上,从而增加了通信成本。解决这个问题的一种方法是量化,但目前的 LLM 方法往往避免量化张量并行需要传达的特征。利用……
来源:Apple机器学习研究这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。
张量并行提供了一种提高服务器大型语言模型 (LLM) 推理效率的有效方法,尽管增加了额外的通信成本。然而,随着服务器 LLM 规模不断扩大,它们将需要分布在更多设备上,从而增加了通信成本。解决这个问题的一种方法是量化,但目前的 LLM 方法倾向于避免量化张量并行需要传达的特征。利用通信特征中的一致异常值,我们引入了一种量化方法,将平均通信值从 16 位减少到 4.2 位,同时保留几乎所有的原始性能。例如,在我们评估的所有任务中,我们的方法分别保持了 Gemma 2 27B 和 Llama 2 13B 原始性能的约 98.0% 和 99.5%。