通过大语言模型指导预测学习___XiaoMi-AI 助力科研平台

通过大语言模型指导预测学习

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

通过大语言模型指导预测学习

¥ 2.0

热度

强化学习算法通常在没有密集，形状良好的奖励功能的情况下挣扎。本质上动机的利用方法通过奖励访问新颖状态或过渡的代理来解决这一限制，但是这些方法在大多数发现的新颖性与下游任务无关的大环境中提供了有限的好处。我们描述了一种使用文本语料库中背景知识来塑造探索的方法。此方法称为Ellm（e xploring at llm s）奖励代理，以实现由促使代理当前状态描述的语言模型所建议的目标。通过利用大规模的语言模型进行预处理，Ellm指导代理人朝着人类善意而有用的行为来实现，而无需在循环中进行人类。我们在手工游戏环境和管家机器人模拟器中评估ELLM，表明经过训练期间，经过ELLM训练的代理在训练过程中具有更好的覆盖范围，并且通常在一系列下游任务上匹配或提高性能。

添加pdf代下载 VIP点击下载文件