精彩的文字,精彩的写作:使用 AWS AI 芯片快速部署 Meta LLama 3 支持的应用程序

在本文中,我们将介绍如何使用 Amazon EC2 Inf2 实例在专用 AWS AI 芯片 AWS Inferentia2 上经济高效地部署多个行业领先的 LLM,帮助客户快速测试并开放 API 接口,以同时促进性能基准测试和下游应用程序调用。

来源:亚马逊云科技 _机器学习

许多组织正在构建由大语言模型(LLM)提供动力的生成AI应用程序,以提高生产力并建立差异化的体验。这些LLM大而复杂,部署它们需要强大的计算资源,并导致高推理成本。对于资源有限的企业和研究人员,生成AI模型的高推理成本可能是进入市场的障碍,因此需要更有效,更具成本效益的解决方案。大多数生成的AI用例都涉及人类互动,这需要AI加速器,这些加速器可以以低延迟提供实时响应率。同时,生成AI的创新速度正在加剧,对于开发人员和研究人员来说,快速评估和采用新模型以跟上市场的步伐变得越来越具有挑战性。

生成ai

开始使用Llama和Mismtral的LLM的一种方法是使用Amazon Bedrock。但是,想要在自己的自我管理工作流中部署LLM的客户以更大的控制和基础资源的灵活性可以使用这些在AWS之上进行优化的LLMS推理了由AWS推理的Amazon Amazon弹性计算云(Amazon EC2)INF2实例。在这篇博客文章中,我们将介绍如何使用Amazon EC2 INF2实例在AWS Chelentia2上进行成本效率地部署多个行业领先的LLM,这是一种专门构建的AWS AI芯片,帮助客户快速测试和打开API界面,以促进性能基准和下游应用程序,并同时呼叫。

亚马逊基岩 Amazon弹性计算云(Amazon EC2) Amazon EC2 INF2 aws pebleentia2

模型简介

有许多受欢迎的开源LLM可供选择,对于此博客文章,我们将使用Meta-llama-3-8b-Instruct,Mistral-7B-Instruct-V0.2和Codellama-7B-7B-Instruct-HF回顾三种不同的用例。

meta-llama-3-8b-instruct mistral-7b-instruct-v0.2 codellama-7b-instruct-hf 模型名称 发行公司 参数数 VPC