详细内容或原文请订阅后点击阅览
在 Amazon SageMaker 训练作业上使用 veRL 和 Ray 训练 CodeFu-7B
在这篇文章中,我们将演示如何在由 SageMaker 训练作业管理的分布式 Ray 集群中使用组相对策略优化 (GRPO) 和 veRL 来训练 CodeFu-7B(一种用于竞争性编程的专用 70 亿参数模型),veRL 是一个灵活高效的大型语言模型 (LLM) 训练库,可直接扩展各种 RL 算法,并与现有 LLM 基础设施无缝集成。我们将介绍完整的实施过程,涵盖数据准备、分布式训练设置和全面的可观察性,展示这种统一的方法如何为复杂的 RL 训练工作负载提供计算规模和开发人员体验。
来源:亚马逊云科技 _机器学习人工智能 (AI) 的快速发展对能够执行复杂推理任务的专用模型产生了前所未有的需求,特别是在竞争性编程中,模型必须通过算法推理而不是模式记忆来生成功能代码。强化学习 (RL) 使模型能够通过基于实际代码执行获得奖励来通过试错来学习,这使得它特别适合在算法领域开发真正的问题解决能力。
然而,为代码生成实现分布式 RL 训练会带来重大的基础设施挑战,例如编排多个异构组件、协调跨节点的并行代码编译以及维护长期运行进程的容错能力。Ray 是解决这些挑战的分布式工作负载框架之一,因为它具有处理整个 AI 管道的统一系统、GPU 优先架构以及与 Hugging Face Transformers 和 PyTorch 等工具的无缝集成。
通过使用 Ray on Amazon SageMaker 训练作业解决方案,可以在 SageMaker 训练作业上使用 Ray 框架运行工作负载,该解决方案将 Ray 的分布式计算框架与 SageMaker 的完全托管基础设施相结合。该解决方案自动处理 Ray 集群初始化、多节点协调和分布式资源管理,使开发人员能够专注于模型开发,同时受益于 SageMaker 的企业级功能。
关于 CodeFu-7B
CodeFu-7B-v0.1 是专门为解决竞争性编程 (CP) 问题而训练的 7B 参数语言模型。 CodeFu 基于 DeepSeek-R1-Distill-Qwen-7B 基本模型构建,展示了强化学习如何超越传统的监督微调方法来开发算法推理和高效 C++ 代码生成功能。
