详细内容或原文请订阅后点击阅览
在 Amazon SageMaker AI 上部署 Mistral AI 的 Voxtral
在本文中,我们演示了使用 vLLM 和自带容器 (BYOC) 方法在 Amazon SageMaker AI 终端节点上托管 Voxtral 模型。 vLLM 是一个用于服务大型语言模型 (LLM) 的高性能库,具有分页注意力以改进内存管理和张量并行性,以便跨多个 GPU 分发模型。
来源:亚马逊云科技 _机器学习option.model_id=mistralai/Voxtral-Mini-3B-2507
要部署 Voxtral-Small,请使用以下代码:
option.tensor_parallel_ Degree = 4
打开并运行 Voxtral-vLLM-BYOC-SageMaker.ipynb 以部署端点并测试文本、音频和函数调用功能。
Docker 容器配置
GitHub 存储库包含完整的 Dockerfile。以下代码片段突出显示了关键部分:
# 用于 SageMaker 上 Voxtral 模型部署的自定义 vLLM 容器
FROM --platform=linux/amd64 vllm/vllm-openai:最新
