VLLM关键词检索结果

在模态上部署裁判员VLLM服务器

Deploying the Magistral vLLM Server on Modal

Python初学者指南构建,部署和测试裁判推理模型。

用于文档理解的微调VLLM

Fine-Tuning vLLMs for Document Understanding

了解如何对特定任务进行微调视觉语言模型,以供文档理解进行微调VLLM,首先出现在数据科学上。

使用Amazon SageMaker大型推理容器V15

Supercharge your LLM performance with Amazon SageMaker Large Model Inference container v15

今天,我们很高兴地宣布,由VLLM 0.8.4驱动的Amazon Sagemaker大型推理(LMI)容器V15的推出,并支持VLLM V1发动机。该版本引入了显着的性能提高,扩展的模型兼容性与多模态(即能够理解和分析文本到文本,图像到文本和文本映射数据),并与VLLM提供内置的集成,以帮助您无人接缝和最高绩效的大型性能(LLMS)具有最高的性能。

优化 LLM:比较 vLLM、LMDeploy 和 SGLang

Optimizing LLMs: Comparing vLLM, LMDeploy, and SGLang

了解 vLLM、LMDeploy 和 SGLang 如何优化 LLM 推理效率。了解 KV 缓存管理、内存分配和 CUDA 优化。

使用 Amazon EKS 和 vLLM 在 AWS Inferentia 上部署 Meta Llama 3.1-8B

Deploy Meta Llama 3.1-8B on AWS Inferentia using Amazon EKS and vLLM

在本文中,我们将介绍使用 Amazon EKS 在 Inferentia 2 实例上部署 Meta Llama 3.1-8B 模型的步骤。此解决方案将 Inferentia 2 芯片的卓越性能和成本效益与 Amazon EKS 的强大和灵活的环境相结合。Inferentia 2 芯片提供高吞吐量和低延迟推理,非常适合 LLM。

使用 vLLM 和带有 AWS AI 芯片的 Amazon EC2 实例提供 LLM

Serving LLMs using vLLM and Amazon EC2 instances with AWS AI chips

在过去一年中,大型语言模型 (LLM) 和生成式 AI 的使用呈爆炸式增长。随着强大的公开基础模型的发布,用于训练、微调和托管您自己的 LLM 的工具也变得民主化。在 AWS Trainium 和 Inferentia 上使用 vLLM 可以托管 LLM 以实现高性能 [...]

使用 Unsloth 对 Llama 3.2 进行微调

Fine-tuning Llama 3.2 Using Unsloth

Unsloth 是一个用户友好的框架,为大型语言模型提供快速推理和微调。 它还支持以多种格式保存模型,包括 vLLM 和 GGUF。

使用 SageMaker Endpoint 通过 vLLM 部署您的 Llama 模型

Deploying Your Llama Model via vLLM using SageMaker Endpoint

利用 AWS 的 MLOps 平台为您的 LLM 模型提供服务继续阅读 Towards Data Science »

优化 LLM 部署:vLLM PagedAttention 和高效 AI 服务的未来

Optimizing LLM Deployment: vLLM PagedAttention and the Future of Efficient AI Serving

在实际应用程序上部署大型语言模型 (LLM) 面临着独特的挑战,特别是在计算资源、延迟和成本效益方面。在本综合指南中,我们将探索 LLM 服务的前景,特别关注 vLLM(矢量语言模型),这是一种正在重塑我们部署和与这些强大模型交互的方式的解决方案。[…] 文章优化 LLM 部署:vLLM PagedAttention 和高效 AI 服务的未来首先出现在 Unite.AI 上。