保熵强化学习

策略梯度算法推动了语言模型推理的许多最新进展。他们的一个吸引人的特性是他们能够从自己的轨迹探索中学习,这一过程对于培育多样化和创造性的解决方案至关重要。正如我们在本文中所示,作为训练的一部分,许多策略梯度算法自然会减少熵,从而减少探索轨迹的多样性,从而产生越来越限制其探索能力的策略。在本文中,我们认为应该在整个训练过程中积极监测和控制熵。我们正式分析...

来源:Apple机器学习研究

策略梯度算法推动了语言模型推理的许多最新进展。他们的一个吸引人的特性是他们能够从自己的轨迹探索中学习,这一过程对于培育多样化和创造性的解决方案至关重要。正如我们在本文中所示,作为训练的一部分,许多策略梯度算法自然会减少熵,从而减少探索轨迹的多样性,从而产生越来越限制其探索能力的策略。在本文中,我们认为应该在整个训练过程中积极监测和控制熵。我们正式分析了领先的政策梯度目标对熵动力学的贡献,确定了显着影响熵行为的经验因素(例如数值精度),并提出了明确的熵控制机制。其中包括 REPO(一系列修改优势函数以调节熵的算法)和 ADAPO(一种自适应非对称裁剪方法)。使用我们的熵保持方法训练的模型在整个训练过程中保持多样性,产生性能更高的最终策略,并保留其在新环境中顺序学习的可训练性。

  • † 麻省理工学院
  • ‡ 平等贡献
  • ** 在 Apple 期间完成的工作