建立可以推理,适应和与环境互动的智能自治系统一直是人工智能的长期目标。本文通过深度学习革命探索了代理系统的演变,从强化学习到现代大型语言模型(LLM),重点关注创建可靠的自主媒介所需的关键组成部分。首先,我们解决了深度强化学习(RL)中泛化的基本挑战,引入了一个系统的框架,用于评估和改善学习政治在环境中的掌握方式转移的方式。在此基础上,我们提出了事后的任务Relabeling(HTR),这是一种新颖的方法,它使Meta-RL算法能够在稀疏的奖励环境中学习适应策略,而无需在培训期间需要密集的奖励信号。最后,我们解决了使用大型语言模型建立可靠代理的新兴挑战。LLMS展示了前所未有的推理能力,但它们作为自主代理的有效性受其架构中的基本限制的限制 - 最值得注意的是,他们的无状态性质和固定上下文窗口。我们提出了一个由操作系统启发的框架,使LLMS能够管理自己的内存和状态,介绍虚拟上下文管理和自我指导的内存操作等概念。模因表明,通过将LLM视为一个新的计算基本单位 - 类似于CPU是传统操作系统中的基本单位 - 我们可以构建更可靠和有能力的自主剂。一起,这些系统追踪了代理AI系统的演变,并提供了创建更可靠和有能力的自主代理的关键构建块。通过解决概括,适应和内存管理方面的核心挑战,本文为工程设计下一代的AI系统建立了基础,该系统可以有效地推理并与世界互动。
主要关键词