MoE-PHDS：一个 MoE 检查点，实现灵活的运行时稀疏性 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

MoE-PHDS：一个 MoE 检查点，实现灵活的运行时稀疏性

2025年12月11日 00:00 33 Comments

来源:Apple机器学习研究

稀疏专家混合 (MoE) 通常经过训练以在固定的稀疏级别上运行，例如top-k 门函数中的 k。该全局稀疏度水平决定了精度/延迟曲线上的操作点；目前，满足多个效率目标意味着训练和维护多个模型。这种做法使服务变得复杂，增加了培训和维护成本，并限制了满足不同延迟、效率和能源要求的灵活性。我们证明，预训练的 MoE 对运行时稀疏性变化的鲁棒性比通常假设的要强，并引入了 MoE-PHDS（{\bf P}ost {\bf H}oc {\bf D}eclared {\bf S}parsity），这是一种轻量级的 SFT 方法，可将单个检查点转变为全局稀疏性控制面。 PHDS 将跨稀疏性级别和锚点的培训与高稀疏性的短期课程相结合，无需进行架构更改。结果是一种模型的可预测的准确性/延迟权衡：从业者可以在推理时“拨打 k”，而无需交换检查点、更改架构或依赖令牌级启发式方法。在 OLMoE-1B-7B-0125、Qwen1.5-MoE-A2.7B 和适用于多个操作点的专有模型上进行的实验表明，PHDS 匹配或超过了明确指定的预言机模型，与明确指定的预言机模型相比，将交叉稀疏性一致性提高了 22%，并且通过使全局稀疏性成为一流的服务原语，实现了简化、灵活的运行时 MoE 部署。

† 加州大学圣地亚哥分校

** 在 Apple 期间完成的工作

灵活的 bf 鲁棒性提高稀疏完成的模型的控制面维护意味着变化的操作点固定的全局灵活性要强延迟无需效率准确性 MoE 检查点假设的可预测的架构 PHDS 服务进行要求的更改模型训练的一致性指定的

MoE-PHDS：一个 MoE 检查点，实现灵活的运行时稀疏性

其他外部链接

Tags

XiaoMi-AI