详细内容或原文请订阅后点击阅览
spd:高语言模型的有效张量并行性的同步点下降
随着Largelanguage模型(LLM)规模的快速扩展,使跨多个计算单元的有效分布推理变得越来越重要。但是,来自流行的分布式促进技术(例如张量并行主义)的沟通开销构成了实现可伸缩性和低潜伏期的重大挑战。因此,我们引入了一种新颖的技术,同步点降(SPD),以通过选择性地降低注意力输出的同步性来减少张量并行性中的通信开销。详细说明,我们首先提出了一个……
来源:Apple机器学习研究随着Largelanguage模型(LLM)规模的快速扩展,使跨多个计算单元的有效分布推理变得越来越重要。但是,来自流行的分布式促进技术(例如张量并行主义)的沟通开销构成了实现可伸缩性和低潜伏期的重大挑战。因此,我们引入了一种新颖的技术,同步点降(SPD),以通过选择性地降低注意力输出的同步性来减少张量并行性中的通信开销。详细说明,我们首先提出了一个块设计,允许执行可以通过SPD进行通信。其次,对注意力的敏感性的关注策略不同。该方法有效地减轻了沟通瓶颈的沟通,同时最大程度地减少了LLM推断期间的准确性降低,为多样化的分布环境提供了可扩展的解决方案:SPD提供了大约20%的分布率降低了<1%的准确性降低<1%的llame 2-2%。