在AWS Trainium上使用VLLM提高冷启动建议 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在AWS Trainium上使用VLLM提高冷启动建议

2025年7月24日 20:17 33 Comments

在这篇文章中，我们演示了如何使用VLLM进行可扩展推理，并使用AWS深度学习容器（DLC）来简化模型包装和部署。我们将通过结构化的提示来产生兴趣扩展，将其编码为嵌入，用Faiss检索候选者，应用验证以保持结果的扎根，并以科学实验的形式构成寒冷的挑战 - 对LLM和编码器配对进行基础，并在建议级别上快速迭代，并显示出清晰的ROI

来源:亚马逊云科技 _机器学习

推荐系统中的冷启动不仅仅是新用户或新项目问题，这是启动时完全没有个性化信号。当某人首次到达或出现新鲜内容时，没有行为历史告诉引擎他们关心的内容，因此每个人都陷入了广泛的通用细分市场。这不仅会损害点击率和转换率，而且还可以在系统有机会学习口味之前将用户驱逐出境。标准补救措施（合并过滤，矩阵分解或受欢迎程度列表）消除了桥接该信号差距的细微差别，并且他们的一定程度适合所有建议很快就会感到陈旧。想象一下，相反，如果您可以从第一天开始产生详细的兴趣概况。通过利用大型语言模型（LLMS）进行零拍，您可以合成丰富的，上下文感知的用户和项目嵌入而无需等待数周的互动数据，将冷淡的开始迎接到热烈欢迎。在这篇文章中，我们演示了如何使用VLLM进行可扩展推理并使用AWS AWS Deep Learning Conterase（DLC）来流化和Doriplline模型包装。我们将通过结构化的提示来产生兴趣的扩展，将其编码为嵌入，用Faiss检索候选者，应用验证以保持扎根，并构成了作为科学实验的寒冷挑战 - 对LLM和编码器配对进行了基础测试，并在建议度量的情况下快速迭代，并在每种配置上均进行清晰的crii tripration。 To streamline model deployment, we use DLCs with the AWS Neuron SDK, which installs Neuron-optimized PyTorch modules and includes the latest AWS Trainium drivers and runtime pre-installed.Figure : Cold-start recommendation pipeline on AWS Trainium with vLLM & NxDSharding large models across multiple Trainium chips is handled by the distributed library used by Neuron, NeuronX Distributed （NXD），与VLLM无缝集成。 NXD管理模型

没有实验的建议兴趣冷启动丰富的 Trainium NXD 清晰的产生细分市场程度编码器详细的用户进行项目扩展科学实验转换率 VLLM 嵌入广泛的模型 Neuron AWS

在AWS Trainium上使用VLLM提高冷启动建议

其他外部链接

Tags

XiaoMi-AI