详细内容或原文请订阅后点击阅览
DeepSeek-R1 模型现已在 Amazon Bedrock Marketplace 和 Amazon SageMaker JumpStart 中推出
DeepSeek-R1 是一种先进的大型语言模型,它结合了强化学习、思维链推理和混合专家架构,通过 Amazon Bedrock Guardrails 集成提供高效、可解释的响应,同时保持安全性。
来源:亚马逊云科技 _机器学习2025 年 2 月 5 日更新 – DeepSeek R1 精炼模型现已在 AWS 上可用
2025 年 2 月 5 日更新 – DeepSeek R1 精炼模型现已在 AWS 上可用今天,我们很高兴地宣布,DeepSeek R1 精炼 Llama 和 Qwen 模型可通过 Amazon Bedrock Marketplace 和 Amazon SageMaker JumpStart 获得。通过此次发布,您现在可以部署 DeepSeek AI 的第一代前沿模型 DeepSeek-R1,以及参数范围从 15 亿到 700 亿的精炼版本,以在 AWS 上构建、试验和负责任地扩展您的生成式 AI 创意。
R1 精简版 Llama 和 Qwen 模型 Amazon Bedrock Marketplace Amazon SageMaker JumpStart DeepSeek AI DeepSeek-R1在本文中,我们将演示如何在 Amazon Bedrock Marketplace 和 SageMaker JumpStart 上开始使用 DeepSeek-R1。您也可以按照类似的步骤部署精简版模型。
Amazon Bedrock SageMaker JumpStartDeepSeek-R1 概述
DeepSeek AI 强化学习 (RL) 思路链 (CoT)DeepSeek-R1 使用混合专家 (MoE) 架构,大小为 6710 亿个参数。MoE 架构允许激活 370 亿个参数,通过将查询路由到最相关的专家“集群”来实现高效推理。这种方法允许模型专注于不同的问题领域,同时保持整体效率。DeepSeek-R1 需要至少 800 GB 的 FP8 格式 HBM 内存来进行推理。在本文中,我们将使用 ml.p5e.48xlarge 实例来部署模型。 ml.p5e.48xlarge 配备 8 个 Nvidia H200 GPU,提供 1128 GB 的 GPU 内存。
DeepSeek-R1 精简模型将主 R1 模型的推理能力带入基于 Qwen(1.5B、7B、14B 和 32B)和 Llama(8B 和 70B)等流行开放模型的更高效架构。精简是指训练更小、更高效的模型以模仿更大的 DeepSeek-R1 模型的行为和推理模式的过程,并将其用作教师模型。
SageMaker JumpStart 部署