DeepSeek-R1 模型现已在 Amazon Bedrock Marketplace 和 Amazon SageMaker JumpStart 中推出

DeepSeek-R1 是一种先进的大型语言模型,它结合了强化学习、思维链推理和混合专家架构,通过 Amazon Bedrock Guardrails 集成提供高效、可解释的响应,同时保持安全性。

来源:亚马逊云科技 _机器学习

2025 年 2 月 5 日更新 – DeepSeek R1 精炼模型现已在 AWS 上可用

2025 年 2 月 5 日更新 – DeepSeek R1 精炼模型现已在 AWS 上可用

今天,我们很高兴地宣布,DeepSeek R1 精炼 Llama 和 Qwen 模型可通过 Amazon Bedrock Marketplace 和 Amazon SageMaker JumpStart 获得。通过此次发布,您现在可以部署 DeepSeek AI 的第一代前沿模型 DeepSeek-R1,以及参数范围从 15 亿到 700 亿的精炼版本,以在 AWS 上构建、试验和负责任地扩展您的生成式 AI 创意。

R1 精简版 Llama 和 Qwen 模型 Amazon Bedrock Marketplace Amazon SageMaker JumpStart DeepSeek AI DeepSeek-R1

在本文中,我们将演示如何在 Amazon Bedrock Marketplace 和 SageMaker JumpStart 上开始使用 DeepSeek-R1。您也可以按照类似的步骤部署精简版模型。

Amazon Bedrock SageMaker JumpStart

DeepSeek-R1 概述

DeepSeek AI 强化学习 (RL) 思路链 (CoT)

DeepSeek-R1 使用混合专家 (MoE) 架构,大小为 6710 亿个参数。MoE 架构允许激活 370 亿个参数,通过将查询路由到最相关的专家“集群”来实现高效推理。这种方法允许模型专注于不同的问题领域,同时保持整体效率。DeepSeek-R1 需要至少 800 GB 的 FP8 格式 HBM 内存来进行推理。在本文中,我们将使用 ml.p5e.48xlarge 实例来部署模型。 ml.p5e.48xlarge 配备 8 个 Nvidia H200 GPU,提供 1128 GB 的 GPU 内存。

DeepSeek-R1 精简模型将主 R1 模型的推理能力带入基于 Qwen(1.5B、7B、14B 和 32B)和 Llama(8B 和 70B)等流行开放模型的更高效架构。精简是​​指训练更小、更高效的模型以模仿更大的 DeepSeek-R1 模型的行为和推理模式的过程,并将其用作教师模型。

SageMaker JumpStart 部署