详细内容或原文请订阅后点击阅览
SpecMD:推测专家预取的综合研究
专家混合 (MoE) 模型支持稀疏专家激活,这意味着每次推理期间仅使用模型参数的子集。然而,要将这种稀疏性转化为实际性能,需要专业的缓存机制。以前的工作提出了以硬件为中心的缓存策略,但是这些不同的缓存策略如何相互作用以及不同的硬件规范仍然知之甚少。为了解决这一差距,我们开发了 SpecMD,这是一个标准化框架,用于对各种硬件配置上的临时缓存策略进行基准测试。使用 SpecMD...
来源:Apple机器学习研究专家混合 (MoE) 模型支持稀疏专家激活,这意味着每次推理期间仅使用模型参数的子集。然而,要将这种稀疏性转化为实际性能,需要专业的缓存机制。以前的工作提出了以硬件为中心的缓存策略,但是这些不同的缓存策略如何相互作用以及不同的硬件规范仍然知之甚少。为了解决这一差距,我们开发了 SpecMD,这是一个标准化框架,用于对各种硬件配置上的临时缓存策略进行基准测试。使用 SpecMD,我们对几种 MoE 缓存策略进行了详尽的基准测试,在具有现实约束的受控设置中重现和扩展了先前的方法。我们的实验表明,MoE 专家访问与时间局部性假设(例如 LRU、LFU)不一致。受这一观察的启发,我们提出了 Least-Stale,这是一种新颖的驱逐策略,它利用 MoE 的可预测专家访问模式,与 LRU 相比,将冲突丢失减少高达 85 倍。凭借这样的收益,我们在 OLMoE 上实现了超过 88% 的命中率,首次令牌时间 (TTFT) 减少了 34.7%,而 VRAM 缓存容量仅为 5% 或 0.6GB。
