详细内容或原文请订阅后点击阅览
关于大型语言模型对顺序决策的建模能力
大型预训练模型在不同模式下的推理和规划任务中表现出越来越好的性能,为利用它们解决复杂的顺序决策问题提供了可能性。在本文中,我们研究了大型语言模型 (LLM) 在各种交互领域中进行强化学习 (RL) 的能力。我们评估了它们制定决策策略的能力,无论是直接通过生成动作,还是间接通过首先生成奖励模型来训练具有 RL 的代理。我们的结果表明,即使没有……
来源:Apple机器学习研究大型预训练模型在不同模式下的推理和规划任务中表现出越来越好的性能,为利用它们解决复杂的顺序决策问题提供了可能性。在本文中,我们研究了大型语言模型 (LLM) 在各种交互领域中用于强化学习 (RL) 的能力。我们评估了它们制定决策策略的能力,无论是直接通过生成动作,还是间接通过首先生成奖励模型来训练使用 RL 的代理。我们的结果表明,即使没有针对特定任务的微调,LLM 也在奖励建模方面表现出色。特别是,通过人工智能 (AI) 反馈制定奖励产生了最普遍适用的方法,并且可以通过改进信用分配和探索来提高性能。最后,在具有不熟悉动态的环境中,我们探索了如何使用合成数据微调 LLM 来显着提高其奖励建模能力,同时减轻灾难性遗忘,从而进一步扩大其在顺序决策任务中的效用。