详细内容或原文请订阅后点击阅览
MoE-PHDS:一个 MoE 检查点,实现灵活的运行时稀疏性
稀疏专家混合 (MoE) 通常经过训练以在固定的稀疏级别上运行,例如top-k 门函数中的 k。该全局稀疏度水平决定了精度/延迟曲线上的操作点;目前,满足多个效率目标意味着训练和维护多个模型。这种做法使服务变得复杂,增加了培训和维护成本,并限制了满足不同延迟、效率和能源要求的灵活性。我们证明,预训练的 MoE 对运行时稀疏性变化的鲁棒性比通常假设的要强,并引入了 MoE-PHDS ({\bf...
来源:Apple机器学习研究稀疏专家混合 (MoE) 通常经过训练以在固定的稀疏级别上运行,例如top-k 门函数中的 k。该全局稀疏度水平决定了精度/延迟曲线上的操作点;目前,满足多个效率目标意味着训练和维护多个模型。这种做法使服务变得复杂,增加了培训和维护成本,并限制了满足不同延迟、效率和能源要求的灵活性。我们证明,预训练的 MoE 对运行时稀疏性变化的鲁棒性比通常假设的要强,并引入了 MoE-PHDS({\bf P}ost {\bf H}oc {\bf D}eclared {\bf S}parsity),这是一种轻量级的 SFT 方法,可将单个检查点转变为全局稀疏性控制面。 PHDS 将跨稀疏性级别和锚点的培训与高稀疏性的短期课程相结合,无需进行架构更改。结果是一种模型的可预测的准确性/延迟权衡:从业者可以在推理时“拨打 k”,而无需交换检查点、更改架构或依赖令牌级启发式方法。在 OLMoE-1B-7B-0125、Qwen1.5-MoE-A2.7B 和适用于多个操作点的专有模型上进行的实验表明,PHDS 匹配或超过了明确指定的预言机模型,与明确指定的预言机模型相比,将交叉稀疏性一致性提高了 22%,并且通过使全局稀疏性成为一流的服务原语,实现了简化、灵活的运行时 MoE 部署。
