与AWS推理的Amazon Sagemaker上优化混合8x7b

这篇文章演示了如何在AWS推理的实例上部署和服务Mixtral 8x7b语言模型,以进行具有成本效益,高性能推断。我们将使用拥抱面孔的最佳神经元进行模型汇编,该神经元提供了一组工具,可直接加载,训练和推理以及文本生成推理(TGI)容器,该容器具有用于部署和服务LLMS与HOUGGingFace的工具套件。

来源:亚马逊云科技 _机器学习
组织不断寻求利用高级大语模型(LLMS)的力量,以实现广泛的应用程序,例如文本生成,摘要问题的答复等。随着这些模型变得越来越强大和有能力,将它们部署在生产环境中,同时优化性能和成本效益变得越来越具有挑战性。AmazonWeb Services(AWS)为部署AI模型提供了高度优化的和具有成本效益的解决方案,例如Mixtral 8x7b语言模型,用于推理规模的推理。 AWS推理和AWS Trainium是AWS AI芯片,是为了提供高吞吐量和低潜伏期推理和训练性能,即使是最大的深度学习模型也是如此。 混合8x7b型号与八个专家采用了专家的混合体(MOE)体系结构。 AWS Neuron—the SDK used to run deep learning workloads on AWS Inferentia and AWS Trainium based instances—employs expert parallelism for MoE architecture, sharding the eight experts across multiple NeuronCores.This post demonstrates how to deploy and serve the Mixtral 8x7B language model on AWS Inferentia2 instances for cost-effective, high-performance inference.我们将使用拥抱面部最佳神经元进行跨模型汇编,该神经元提供了一组工具,可直接加载,训练和推理,以及文本生成推理(TGI)容器,该容器具有用于部署和服务LLM的工具包,使其与拥抱的面孔一起使用。随后将部署到Amazon SageMaker实时推理端点,该端点会自动提供和管理幕后的Chellentia2实例,并提供了一个容器化的环境,可以安全地和规模地运行模型。在何时存在预编译模型版本中,我们将涵盖编译过程,以涵盖重要的配置选项和实例化的选择和实例化的考虑。该端到端指南结合了亚马逊弹性计算云(Amazon EC2)的汇编