机构名称:
¥ 1.0
我们探讨了增强学习(RL)在变压器模型培训期间动态调整学习率的应用,旨在通过根据培训进度自动调整学习率来提高训练效率和模型性能。由于训练过程的非平稳性质以及需要在学习率调整中探索和剥削的强大方法,这是具有挑战性的。我们提出了一种基于Q学习的方法,该方法使用验证损失和当前学习率作为状态,调整学习率以优化培训过程。我们在包括Shakespeare_char,Enwik8和Text8在内的多个数据集上进行的实验表明,与传统方法相比,基于RL的学习率适应性可提高更快的收敛性和更好的最终性能。