并行轨道领域信息情报检索---XiaoMi-AI

2026年2月10日 00:00

并行轨道变压器：通过减少同步实现快速 GPU 推理

Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization

基于 Transformer 的大型语言模型 (LLM) 的高效大规模推理仍然是一个基本的系统挑战，经常需要多 GPU 并行性来满足严格的延迟和吞吐量目标。传统的张量并行性会分解跨设备的矩阵运算，但会引入大量的 GPU 间同步，从而导致通信瓶颈和可扩展性下降。我们提出了并行轨道（PT）变压器，这是一种新颖的架构范例，可以重组计算以最小化跨设备依赖性。 PT 实现了高达 16 倍的减少……

并行轨道关键词检索结果

并行轨道变压器：通过减少同步实现快速 GPU 推理