并行轨道变压器:通过减少同步实现快速 GPU 推理

基于 Transformer 的大型语言模型 (LLM) 的高效大规模推理仍然是一个基本的系统挑战,经常需要多 GPU 并行性来满足严格的延迟和吞吐量目标。传统的张量并行性会分解跨设备的矩阵运算,但会引入大量的 GPU 间同步,从而导致通信瓶颈和可扩展性下降。我们提出了并行轨道(PT)变压器,这是一种新颖的架构范例,可以重组计算以最小化跨设备依赖性。 PT 实现了高达 16 倍的减少……

来源:Apple机器学习研究

基于 Transformer 的大型语言模型 (LLM) 的高效大规模推理仍然是一个基本的系统挑战,经常需要多 GPU 并行性来满足严格的延迟和吞吐量目标。传统的张量并行性会分解跨设备的矩阵运算,但会引入大量的 GPU 间同步,从而导致通信瓶颈和可扩展性下降。我们提出了并行轨道(PT)变压器,这是一种新颖的架构范例,可以重组计算以最小化跨设备依赖性。相对于标准张量并行性,PT 的同步操作减少了 16 倍,同时在我们的实验中保持了有竞争力的模型质量。我们将 PT 集成到两个广泛采用的 LLM 服务堆栈(Tensor-RT-LLM 和 vLLM)中,并报告了服务效率的持续改进,包括第一个令牌的时间缩短了 15-30%,每个输出令牌的时间缩短了 2-12%,两种设置中的吞吐量提高了 31.90%。

  • ** 在 Apple 期间完成的工作