Loading...
机构名称:
¥ 2.0

强化学习算法通常在没有密集,形状良好的奖励功能的情况下挣扎。本质上动机的利用方法通过奖励访问新颖状态或过渡的代理来解决这一限制,但是这些方法在大多数发现的新颖性与下游任务无关的大环境中提供了有限的好处。我们描述了一种使用文本语料库中背景知识来塑造探索的方法。此方法称为Ellm(e xploring at llm s)奖励代理,以实现由促使代理当前状态描述的语言模型所建议的目标。通过利用大规模的语言模型进行预处理,Ellm指导代理人朝着人类善意而有用的行为来实现,而无需在循环中进行人类。我们在手工游戏环境和管家机器人模拟器中评估ELLM,表明经过训练期间,经过ELLM训练的代理在训练过程中具有更好的覆盖范围,并且通常在一系列下游任务上匹配或提高性能。

通过大语言模型指导预测学习

通过大语言模型指导预测学习PDF文件第1页

通过大语言模型指导预测学习PDF文件第2页

通过大语言模型指导预测学习PDF文件第3页

通过大语言模型指导预测学习PDF文件第4页

通过大语言模型指导预测学习PDF文件第5页

相关文件推荐

2024 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥10.0
2024 年
¥1.0
2025 年
¥2.0
1900 年
¥4.0