在Amazon EKS自动模式和NVIDIA NIMS

在这篇文章中,我们使用全面的现代技术堆栈来证明实用的基于RAG聊天的助手。该解决方案将NVIDIA NIMS用于LLM推理和文本嵌入服务,而NIM操作员处理其部署和管理。该体系结构将Amazon OpenSearch无用的服务器融合到存储和查询高维矢量嵌入以进行相似性搜索。

来源:亚马逊云科技 _机器学习
基于聊天的助手通过检索增强发电(RAG)提供动力的助手正在通过在您自己的数据中提供快速,准确的答案来改变客户支持,内部帮助办公桌和企业搜索。使用RAG,您可以使用现成的基础模型(FM),并用自己的数据丰富它,从而无需进行微调或再培训,使响应相关和上下文感知。在Amazon Elastic Kubernetes服务(Amazon EKS)上运行这些基于聊天的助手,使您可以灵活地使用各种FMS,保留对数据和基础架构的完全控制。MazonEKS量表的工作负载具有您的工作量,并且具有稳定和波动需求的成本效益。由于EKS经过认证的Kubernetes符合形式,因此它与在标准Kubernetes环境中运行的现有应用程序兼容,无论是在本地数据中心还是公共云上托管。对于数据平面,您可以利用各种计算选项,包括CPU,GPU,AWS专用AI芯片(AWS推理和AWS Trainium)和基于ARM的CPU架构(AWS Graviton),以符合性能和成本要求。 Such flexibility makes Amazon EKS an ideal candidate for running heterogeneous workloads because you can compose different compute substrates, within the same cluster, to optimize both performance and cost efficiency.NVIDIA NIM microservices consist of microservices that deploy and serve FMs, integrating with AWS services such as Amazon Elastic Compute Cloud (Amazon EC2), Amazon EKS, and Amazon SageMaker. NIM微服务作为Docker容器分布,可通过NVIDIA NGC目录获得。部署GPU加速模型需要您选择和配置诸如Pytorch或Tensorflow之类的运行时间,设置Triton,例如TRITON,实现模型优化和兼容性问题。这需要工程时间和专业知识。 NIM微服务通过自动化这些T