Fine-Tuning vLLMs for Document Understanding
了解如何对特定任务进行微调视觉语言模型,以供文档理解进行微调VLLM,首先出现在数据科学上。
Supercharge your LLM performance with Amazon SageMaker Large Model Inference container v15
今天,我们很高兴地宣布,由VLLM 0.8.4驱动的Amazon Sagemaker大型推理(LMI)容器V15的推出,并支持VLLM V1发动机。该版本引入了显着的性能提高,扩展的模型兼容性与多模态(即能够理解和分析文本到文本,图像到文本和文本映射数据),并与VLLM提供内置的集成,以帮助您无人接缝和最高绩效的大型性能(LLMS)具有最高的性能。
Optimizing LLMs: Comparing vLLM, LMDeploy, and SGLang
了解 vLLM、LMDeploy 和 SGLang 如何优化 LLM 推理效率。了解 KV 缓存管理、内存分配和 CUDA 优化。
Deploy Meta Llama 3.1-8B on AWS Inferentia using Amazon EKS and vLLM
在本文中,我们将介绍使用 Amazon EKS 在 Inferentia 2 实例上部署 Meta Llama 3.1-8B 模型的步骤。此解决方案将 Inferentia 2 芯片的卓越性能和成本效益与 Amazon EKS 的强大和灵活的环境相结合。Inferentia 2 芯片提供高吞吐量和低延迟推理,非常适合 LLM。
Serving LLMs using vLLM and Amazon EC2 instances with AWS AI chips
在过去一年中,大型语言模型 (LLM) 和生成式 AI 的使用呈爆炸式增长。随着强大的公开基础模型的发布,用于训练、微调和托管您自己的 LLM 的工具也变得民主化。在 AWS Trainium 和 Inferentia 上使用 vLLM 可以托管 LLM 以实现高性能 [...]
Fine-tuning Llama 3.2 Using Unsloth
Unsloth 是一个用户友好的框架,为大型语言模型提供快速推理和微调。 它还支持以多种格式保存模型,包括 vLLM 和 GGUF。
Deploying Your Llama Model via vLLM using SageMaker Endpoint
利用 AWS 的 MLOps 平台为您的 LLM 模型提供服务继续阅读 Towards Data Science »
Optimizing LLM Deployment: vLLM PagedAttention and the Future of Efficient AI Serving
在实际应用程序上部署大型语言模型 (LLM) 面临着独特的挑战,特别是在计算资源、延迟和成本效益方面。在本综合指南中,我们将探索 LLM 服务的前景,特别关注 vLLM(矢量语言模型),这是一种正在重塑我们部署和与这些强大模型交互的方式的解决方案。[…] 文章优化 LLM 部署:vLLM PagedAttention 和高效 AI 服务的未来首先出现在 Unite.AI 上。