在AWS Trainium上使用VLLM提高冷启动建议

在这篇文章中,我们演示了如何使用VLLM进行可扩展推理,并使用AWS深度学习容器(DLC)来简化模型包装和部署。我们将通过结构化的提示来产生兴趣扩展,将其编码为嵌入,用Faiss检索候选者,应用验证以保持结果的扎根,并以科学实验的形式构成寒冷的挑战 - 对LLM和编码器配对进行基础,并在建议级别上快速迭代,并显示出清晰的ROI

来源:亚马逊云科技 _机器学习
推荐系统中的冷启动不仅仅是新用户或新项目问题,这是启动时完全没有个性化信号。当某人首次到达或出现新鲜内容时,没有行为历史告诉引擎他们关心的内容,因此每个人都陷入了广泛的通用细分市场。这不仅会损害点击率和转换率,而且还可以在系统有机会学习口味之前将用户驱逐出境。标准补救措施(合并过滤,矩阵分解或受欢迎程度列表)消除了桥接该信号差距的细微差别,并且他们的一定程度适合所有建议很快就会感到陈旧。想象一下,相反,如果您可以从第一天开始产生详细的兴趣概况。通过利用大型语言模型(LLMS)进行零拍,您可以合成丰富的,上下文感知的用户和项目嵌入而无需等待数周的互动数据,将冷淡的开始迎接到热烈欢迎。在这篇文章中,我们演示了如何使用VLLM进行可扩展推理并使用AWS AWS Deep Learning Conterase(DLC)来流化和Doriplline模型包装。我们将通过结构化的提示来产生兴趣的扩展,将其编码为嵌入,用Faiss检索候选者,应用验证以保持扎根,并构成了作为科学实验的寒冷挑战 - 对LLM和编码器配对进行了基础测试,并在建议度量的情况下快速迭代,并在每种配置上均进行清晰的crii tripration。 To streamline model deployment, we use DLCs with the AWS Neuron SDK, which installs Neuron-optimized PyTorch modules and includes the latest AWS Trainium drivers and runtime pre-installed.Figure : Cold-start recommendation pipeline on AWS Trainium with vLLM & NxDSharding large models across multiple Trainium chips is handled by the distributed library used by Neuron, NeuronX Distributed (NXD),与VLLM无缝集成。 NXD管理模型