探索提示学习:使用英语反馈来优化LLM Systems

提示学习提出了一种令人信服的方法,用于持续改进AI应用程序,该帖子探索及时学习:使用英语反馈来优化LLM系统,首先出现在数据科学方面。

来源:走向数据科学

在过去的几个月中,AI模型建设中的学习(RL)一直是一个越来越多的话题。从将RL机械师纳入其培训过程中的DeepSeek模型到基于RL的改进的其他成功案例,“ AI Twitter”一直在燃烧。

随着越来越多的代理的部署,出现了一个问题:加强学习控制系统只能在提示中构建吗?毕竟,加强学习就是要使用现实世界的反馈来对目标进行优化,传统上是通过调整模型权重。但是提示本身是指导大型语言模型的主要接口。

我们一直在尝试一种新的方法来优化LLM提示,即我们称为“及时学习”(PL)。与依赖数值分数的传统优化方法不同,PL使用自然语言反馈来迭代提高提示。这种方法的根源是Nvidia的Jim Fan团队的Voyager Paper。 Andrej Karpathy在最近的几条推文中也提到了这一点,他认为以迅速为中心的学习将是一项关键技术。

“提示学习”(PL) 航行纸 几个 推文

尽管有这些早期的印象,据我们所知,还没有人对基于强化学习的方法进行严格的研究,表征和测量,以迅速调整。这正是我们打算做的。

此实现的灵感来自原始Voyager纸中引入的想法。原始旅行者纸中使用的迭代提示机制作为代理商获取和完善,这是我们迅速学习方法的基础。

提示学习

什么是促进的学习?

提示学习与Metaprompt以几种主要方式及时优化不同。

其次,提示学习是一种在线方法,可以管理您的系统说明,该方法旨在不断地按照您的及时运行 - 将指令重新调整到上下文中。基于LLM的系统可以协助上下文工程您的系统说明。

传统RL(作者创建的图像)
n/a