在 Amazon SageMaker AI 上部署 Mistral AI 的 Voxtral

在本文中,我们演示了使用 vLLM 和自带容器 (BYOC) 方法在 Amazon SageMaker AI 终端节点上托管 Voxtral 模型。 vLLM 是一个用于服务大型语言模型 (LLM) 的高性能库,具有分页注意力以改进内存管理和张量并行性,以便跨多个 GPU 分发模型。

来源:亚马逊云科技 _机器学习
  • 在 code/serving.properties 中配置您的模型:
  • 要部署 Voxtral-Mini,请使用以下代码:
  • option.model_id=mistralai/Voxtral-Mini-3B-2507
  • option.tensor_parallel_ Degree = 1
  • 要部署 Voxtral-Small,请使用以下代码:
  • option.model_id=mistralai/Voxtral-Small-24B-2507
  • option.tensor_parallel_ Degree = 4

    打开并运行 Voxtral-vLLM-BYOC-SageMaker.ipynb 以部署端点并测试文本、音频和函数调用功能。

    Docker 容器配置

    GitHub 存储库包含完整的 Dockerfile。以下代码片段突出显示了关键部分:

    # 用于 SageMaker 上 Voxtral 模型部署的自定义 vLLM 容器

    FROM --platform=linux/amd64 vllm/vllm-openai:最新

    # 设置SageMaker的环境变量

    ENV MODEL_CACHE_DIR=/opt/ml/模型

    ENV TRANSFORMERS_CACHE=/tmp/transformers_cache

    ENV HF_HOME=/tmp/hf_home

    ENV VLLM_WORKER_MULTIPROC_METHOD=生成

    # 安装音频处理依赖项

    运行 pip install --no-cache-dir \

    “mistral_common>=1.8.1”\图书馆>=0.10.2 \声音文件>=0.12.1 \pydub>=0.25.1此 Dockerfile 创建一个专用容器,通过添加必要的音频处理库(mistral_common 用于标记化,librosa/soundfile/pydub 用于音频处理),同时配置适当的 SageMaker 环境变量以进行模型加载和缓存,从而使用 Voxtral 特定功能扩展官方 vLLM 服务器。该方法通过保持容器通用性并允许 SageMaker 在运行时从 Amazon S3 动态注入特定于模型的代码(model.py 和serving.properties),将基础设施与业务逻辑分开,从而无需重建容器即可灵活部署不同的 Voxtral 变体。模型配置完整的模型配置位于代码文件夹中的serving.properties 文件中。以下代码片段突出显示了关键配置:自定义推理处理程序SageMaker 部署代码模型用例纯文本仅转录文本和音频理解工具使用Strands Agent 集成