SPD: Sync-Point Drop for Efficient Tensor Parallelism of Large Language Models
随着Largelanguage模型(LLM)规模的快速扩展,使跨多个计算单元的有效分布推理变得越来越重要。但是,来自流行的分布式促进技术(例如张量并行主义)的沟通开销构成了实现可伸缩性和低潜伏期的重大挑战。因此,我们引入了一种新颖的技术,同步点降(SPD),以通过选择性地降低注意力输出的同步性来减少张量并行性中的通信开销。详细说明,我们首先提出了一个……
Distributed Deep Learning training: Model and Data Parallelism in Tensorflow
如何使用镜像策略、参数服务器和中央存储等分布式方法在多个 GPU 或机器中训练数据。
Reducing Time to Value for Data Science Projects: Part 2
利用自动化和并行性来扩展实验,缩短了对数据科学项目的价值的时间:第2部分首先出现在数据科学方面。
Efficiently train models with large sequence lengths using Amazon SageMaker model parallel
在本文中,我们将演示 Amazon SageMaker 模型并行库 (SMP) 如何通过支持新功能来满足这一需求,例如用于加速训练性能的 8 位浮点 (FP8) 混合精度训练和用于处理大输入序列长度的上下文并行性,从而扩展其现有功能的列表。
Jim Keller: Moore’s Law, Microprocessors, Abstractions, and First Principles
Jim Keller 是一位传奇的微处理器工程师,曾在 AMD、Apple、Tesla 和 Intel 工作过。他因在 AMD K7、K8、K12 和 Zen 微架构、Apple A4、A5 处理器方面的工作以及 x86-64 指令集和 HyperTransport 互连规范的合著者而闻名。此对话是人工智能播客的一部分。如果您想了解有关此播客的更多信息,请访问 https://lexfridman.com/ai 或在 Twitter、LinkedIn、Facebook、Medium 或 YouTube 上与 @lexfridman 联系,您可以在其中观看这些对话的视频版本。如果您喜欢播客,请在