摘要:此演讲探讨了DeepSeek R1的数学基础,DeepSeek R1是一种专为复杂推理而设计的模型。与传统的监督精细调整不同,DeepSeek R1相对政策优化(GRPO)是一种新的方法,可以稳定近端政策优化(PPO),而没有批评家。GRPO通过将问题解决为顺序的步骤来增强思想链推理。我将分析其理论属性和对推理驱动的强化学习的影响。
从人类反馈中学习(RLHF)已成为一种至关重要的方法,可以通过诸如近端政策优化(PPO),直接偏好优化(DPO)等方法来使大型语言模型与人类偏好相结合,见证了快速的算法进化,增强了Oneforce One-Out Out-Out Out Ont-Out(Rloo)(RLOO),Remax,Remax,Remax和Group Oppers Policy Optimation(GRPO)(GRP)(GRPO)。我们提出了增强++,这是经典增强算法的增强变体,该变体融合了PPO中的关键优化技术,同时消除了对评论家网络的需求。增强++实现了三个主要目标:(1)简单性(2)增强的训练稳定性,以及(3)减少了计算开销。通过广泛的经验评估,我们证明,与GRPO相比,增强++在保持可比性能的同时,具有比PPO更高的计算效率表现出卓越的稳定性。该实现可在https://github.com/openrlhf/openrlhf上获得。
在本报告中,我们介绍了 Qwen2.5,这是一系列全面的大型语言模型 (LLM),旨在满足多样化的需求。与之前的迭代相比,Qwen 2.5 在预训练和后训练阶段都有了显著的提升。在预训练方面,我们将高质量的预训练数据集从之前的 7 万亿个 token 扩展到 18 万亿个 token,为常识、专家知识和推理能力提供了坚实的基础。在后训练方面,我们实现了超过 100 万个样本的复杂监督微调,以及多阶段强化学习,包括离线学习 DPO 和在线学习 GRPO。后训练技术显著增强了人类偏好,并显著改善了长文本生成、结构化数据分析和指令跟随。