保熵强化学习 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

保熵强化学习

2026年3月30日 00:00 33 Comments

来源:Apple机器学习研究

策略梯度算法推动了语言模型推理的许多最新进展。他们的一个吸引人的特性是他们能够从自己的轨迹探索中学习，这一过程对于培育多样化和创造性的解决方案至关重要。正如我们在本文中所示，作为训练的一部分，许多策略梯度算法自然会减少熵，从而减少探索轨迹的多样性，从而产生越来越限制其探索能力的策略。在本文中，我们认为应该在整个训练过程中积极监测和控制熵。我们正式分析了领先的政策梯度目标对熵动力学的贡献，确定了显着影响熵行为的经验因素（例如数值精度），并提出了明确的熵控制机制。其中包括 REPO（一系列修改优势函数以调节熵的算法）和 ADAPO（一种自适应非对称裁剪方法）。使用我们的熵保持方法训练的模型在整个训练过程中保持多样性，产生性能更高的最终策略，并保留其在新环境中顺序学习的可训练性。

† 麻省理工学院

‡ 平等贡献

** 在 Apple 期间完成的工作

力学的一系列策略训练的动力学的自己的控制明确的完成的多样化模型经验贡献保持势函数学习的方法动力学梯度领先的轨迹的非对称训练多样性过程自适应本文梯度算法调节探索

保熵强化学习

其他外部链接

Tags

XiaoMi-AI