如何使用拥抱的面部库在AWS AI芯片上运行QWEN 2.5

在这篇文章中,我们概述了如何使用拥抱脸部文本生成推断(TGI)容器(TGI)容器(TGI)容器(TGI)和TheHugging Optimum face face face facimum neuron库来使用使用Amazon弹性Compute Cloud(Amazon EC2)和Amazon Sagemaker部署QWEN 2.5模型家族。还支持QWEN2.5编码器和数学变体。

来源:亚马逊云科技 _机器学习
QWEN 2.5多语言大语言模型(LLMS)是0.5b,1.5b,1.5b,3b,7b,14b,32b,32b和72b中的预训练和指令调整的生成模型的集合(文本中/文本输出和代码输出)。 QWEN 2.5微调文本模型针对多语言对话用例进行了优化,并且均超过了前几代QWEN模型,以及许多基于共同行业基准的公开聊天模型。在其核心方面,QWEN 2.5是一种使用优化的变压器体系结构的自动性性语言模型。 The Qwen2.5 collection can support over 29 languages and has enhanced role-playing abilities and condition-setting for chatbots.In this post, we outline how to get started with deploying the Qwen 2.5 family of models on an Inferentia instance using Amazon Elastic Compute Cloud (Amazon EC2) and Amazon SageMaker using the Hugging Face Text Generation Inference (TGI) container and the Hugging Face Optimum Neuron library.还支持QWEN2.5编码器和数学变体。预先进行的面孔提供两种工具,使用AWS推理和AWS Trainium经常使用:文本生成推理(TGI)容器(TGI)容器(TGI)容器,可为部署和服务llms提供支持,以及在地球上和地球上的界面上的界面,它们是最佳的神经元图书馆,这些库是超级群体和界面。 Trainium,您可以编译该模型,以确保您的版本将在推论和火车芯片上发挥最佳性能。最佳的神经元库与最佳神经元缓存一起在可用时将透明地提供编译模型。如果您使用QWEN2.5体系结构的其他模型,则可能需要在部署前进行编译。有关更多信息,请参阅汇编推理或火车的模型。您可以将TGI部署在推理或Trainium EC2实例上或Amazon Sagemaker上的Docker容器。