获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
Entropy-Preserving Reinforcement Learning
策略梯度算法推动了语言模型推理的许多最新进展。他们的一个吸引人的特性是他们能够从自己的轨迹探索中学习,这一过程对于培育多样化和创造性的解决方案至关重要。正如我们在本文中所示,作为训练的一部分,许多策略梯度算法自然会减少熵,从而减少探索轨迹的多样性,从而产生越来越限制其探索能力的策略。在本文中,我们认为应该在整个训练过程中积极监测和控制熵。我们正式分析...