PHD领域信息情报检索---XiaoMi-AI

2025年12月11日 00:00

MoE-PHDS：一个 MoE 检查点，实现灵活的运行时稀疏性

MoE-PHDS: One MoE Checkpoint for Flexible Runtime Sparsity

稀疏专家混合 (MoE) 通常经过训练以在固定的稀疏级别上运行，例如top-k 门函数中的 k。该全局稀疏度水平决定了精度/延迟曲线上的操作点；目前，满足多个效率目标意味着训练和维护多个模型。这种做法使服务变得复杂，增加了培训和维护成本，并限制了满足不同延迟、效率和能源要求的灵活性。我们证明，预训练的 MoE 对运行时稀疏性变化的鲁棒性比通常假设的要强，并引入了 MoE-PHDS ({\bf...

PHD关键词检索结果

MoE-PHDS：一个 MoE 检查点，实现灵活的运行时稀疏性