使用AWS Trainium芯片和VLLM XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用AWS Trainium芯片和VLLM

2025年8月13日 17:01 33 Comments

在这篇文章中，亚马逊分享了他们如何使用Amazon Trainium Chips和VLLM为其生成的AI购物助理Rufus开发多节点推理解决方案，以大规模提供大型语言模型。该解决方案结合了领导者/追随者编排模型，混合并行性策略以及在亚马逊ECS上构建的多节点推理单元抽象层，以跨多个节点部署模型，同时保持高性能和可靠性。

来源:亚马逊云科技 _机器学习

在亚马逊，我们的团队建立了Rufus，Rufus是一位生成AI的购物助理，为数百万客户提供了巨大的规模。但是，大规模部署RUFU会引入必须仔细导航的重大挑战。 Rufus由定制的大型语言模型（LLM）提供动力。随着模型的复杂性的增加，我们优先考虑开发可扩展的多节点推理功能，这些推理能力能够保持高质量的相互作用，同时提供低潜伏期和成本效率。在这篇文章中，我们分享了我们如何使用Amazon Trainium和VLLM开发多节点推理解决方案，这是一个开源的开源库，设计了有效的LLMS，是一个开源的开源库。我们还讨论了如何在亚马逊弹性容器服务（Amazon ECS）上建立一个管理层，以跨多个节点托管模型，从而促进可靠，可靠和可扩展的部署。促进具有多节点推理的Rufus模型的促进型，我们的rufus型号的尺寸更大，我们需要多个Accelertances实例，因为没有单个CHIP或实例为整个模型提供了足够的存储器。我们首先需要设计模型以在多个加速器上分开。诸如张量并行性之类的技术可用于实现这一目标，这也可能影响各种指标，例如第一次令牌的时间。在较大规模上，节点上的加速器可能不够，并且要求您使用多个主机或节点。那时，您还必须解决管理节点的管理以及模型如何在它们（以及它们各自的加速器）中分解。我们需要解决两个主要领域：模型性能 - 最大化多个节点的计算和内存资源利用，以在高吞吐量下提供模型，而不会牺牲低潜伏期。这包括设计有效的并行性策略和模型减肥方法，以分配计算和内存范围内和多个节点内的内存足迹，以及一种有效的批处理机制，可最大化硬件资源UT

质量的建立处理机巨大的提供复杂性节点促进存储器推理导航的质量最大化计算有效的设计模型吞吐量足够的互作用模型的高质量的节点的开源各自的扩展的定制的可能加速器潜伏期内存模型 Rufus 多个相互作用大规模并行性

使用AWS Trainium芯片和VLLM

其他外部链接

Tags

XiaoMi-AI