MoE-PHDS: One MoE Checkpoint for Flexible Runtime Sparsity
稀疏专家混合 (MoE) 通常经过训练以在固定的稀疏级别上运行,例如top-k 门函数中的 k。该全局稀疏度水平决定了精度/延迟曲线上的操作点;目前,满足多个效率目标意味着训练和维护多个模型。这种做法使服务变得复杂,增加了培训和维护成本,并限制了满足不同延迟、效率和能源要求的灵活性。我们证明,预训练的 MoE 对运行时稀疏性变化的鲁棒性比通常假设的要强,并引入了 MoE-PHDS ({\bf...