使用AWS Trainium芯片和VLLM

在这篇文章中,亚马逊分享了他们如何使用Amazon Trainium Chips和VLLM为其生成的AI购物助理Rufus开发多节点推理解决方案,以大规模提供大型语言模型。该解决方案结合了领导者/追随者编排模型,混合并行性策略以及在亚马逊ECS上构建的多节点推理单元抽象层,以跨多个节点部署模型,同时保持高性能和可靠性。

来源:亚马逊云科技 _机器学习
在亚马逊,我们的团队建立了Rufus,Rufus是一位生成AI的购物助理,为数百万客户提供了巨大的规模。但是,大规模部署RUFU会引入必须仔细导航的重大挑战。 Rufus由定制的大型语言模型(LLM)提供动力。随着模型的复杂性的增加,我们优先考虑开发可扩展的多节点推理功能,这些推理能力能够保持高质量的相互作用,同时提供低潜伏期和成本效率。在这篇文章中,我们分享了我们如何使用Amazon Trainium和VLLM开发多节点推理解决方案,这是一个开源的开源库,设计了有效的LLMS,是一个开源的开源库。我们还讨论了如何在亚马逊弹性容器服务(Amazon ECS)上建立一个管理层,以跨多个节点托管模型,从而促进可靠,可靠和可扩展的部署。促进具有多节点推理的Rufus模型的促进型,我们的rufus型号的尺寸更大,我们需要多个Accelertances实例,因为没有单个CHIP或实例为整个模型提供了足够的存储器。我们首先需要设计模型以在多个加速器上分开。诸如张量并行性之类的技术可用于实现这一目标,这也可能影响各种指标,例如第一次令牌的时间。在较大规模上,节点上的加速器可能不够,并且要求您使用多个主机或节点。那时,您还必须解决管理节点的管理以及模型如何在它们(以及它们各自的加速器)中分解。我们需要解决两个主要领域:模型性能 - 最大化多个节点的计算和内存资源利用,以在高吞吐量下提供模型,而不会牺牲低潜伏期。这包括设计有效的并行性策略和模型减肥方法,以分配计算和内存范围内和多个节点内的内存足迹,以及一种有效的批处理机制,可最大化硬件资源UT