使用Amazon SageMaker大型推理容器V15

今天,我们很高兴地宣布,由VLLM 0.8.4驱动的Amazon Sagemaker大型推理(LMI)容器V15的推出,并支持VLLM V1发动机。该版本引入了显着的性能提高,扩展的模型兼容性与多模态(即能够理解和分析文本到文本,图像到文本和文本映射数据),并与VLLM提供内置的集成,以帮助您无人接缝和最高绩效的大型性能(LLMS)具有最高的性能。

来源:亚马逊云科技 _机器学习
今天,我们很高兴地宣布,由VLLM 0.8.4驱动的Amazon Sagemaker大型推理(LMI)容器V15的推出,并支持VLLM V1发动机。现在,此版本支持最新的开源型号,例如Meta的Llama 4车型侦察兵和Google的Gemma 3,Alibaba的Qwen,Mismtral AI,DeepSeek-R等。 Amazon SageMaker AI continues to evolve its generative AI inference capabilities to meet the growing demands in performance and model support for foundation models (FMs).This release introduces significant performance improvements, expanded model compatibility with multimodality (that is, the ability to understand and analyze text-to-text, images-to-text, and text-to-images data), and provides built-in integration with vLLM to help you seamlessly deploy and serve large语言模型(LLMS)的表现最高。什么是新的?LMI V15带来了几种改善,可改善吞吐量,延迟和可用性:异步模式,该模式直接与VLLM的AsyncllMengine直接集成,以改善请求处理。此模式创建了一个更有效的背景循环,该循环连续处理传入的请求,使其能够处理多个并发请求和流量输出,其吞吐量高于V14中的先前滚动批量实现。VLLMV1发动机的支持,与以前的V0发动机相比,VLLM V1发动机的支持高达111%的吞吐量。这种性能改进来自V1体系结构中减少的CPU开销,优化的执行路径以及更有效的资源利用。 LMI V15支持V1和V0引擎,V1为默认值。如果您需要使用V0,则可以通过指定VLLM_USE_V1 = 0来使用V0引擎。 VLLM V1的发动机还具有服务引擎的核心重新构造,并具有简化的调度,零交叉前缀缓存,干净的张量并行推理,有效的输入准备和高级优化