有效分布关键词检索结果

spd:高语言模型的有效张量并行性的同步点下降

SPD: Sync-Point Drop for Efficient Tensor Parallelism of Large Language Models

随着Largelanguage模型(LLM)规模的快速扩展,使跨多个计算单元的有效分布推理变得越来越重要。但是,来自流行的分布式促进技术(例如张量并行主义)的沟通开销构成了实现可伸缩性和低潜伏期的重大挑战。因此,我们引入了一种新颖的技术,同步点降(SPD),以通过选择性地降低注意力输出的同步性来减少张量并行性中的通信开销。详细说明,我们首先提出了一个……