Loading...
机构名称:
¥ 2.0

强化学习(RL)在学习政策方面表现出了非凡的能力。但是,RL通常受到样本效率低,缺乏解释性和稀疏监督信号等问题的阻碍。为了应对这些局限性,我们从人类学习过程中汲取灵感并引入自然语言增强学习(NLRL),这使得将RL原则与自然语言代表结合在一起。具体来说,NLRL重新定义了自然语言空间中任务目标,策略,价值功能,钟声方程和策略迭代等RL概念。我们介绍了如何通过大型语言模型(LLM)(例如GPT-4)的最新进步来实现NLRL。对表格MDP的初始实验证明了NLRL框架的有效性,效率以及解释性。

自然语言强化学习

自然语言强化学习PDF文件第1页

自然语言强化学习PDF文件第2页

自然语言强化学习PDF文件第3页

自然语言强化学习PDF文件第4页

自然语言强化学习PDF文件第5页