介绍 GoodAI LTM Benchmark
作为我们在持续学习领域研究工作的一部分,我们正在开源一个基准,用于测试代理在非常长的对话中执行涉及高级使用记忆的任务的能力。除其他外,我们评估代理在需要动态维护记忆或长期整合信息的任务上的表现。我们正在开源:现行的 GoodAI LTM 基准。我们的 LTM 代理。我们的实验数据和结果。我们表明,信息的可用性是解决这些任务的必要条件,但不是充分条件。在我们的初始基准中,具有 8k 上下文的对话 LTM 代理与具有 128k 个令牌的长上下文 GPT-4-1106 相当。在内存要求高出 10 倍的更大基准测试中,我们的具有 8k 上下文的对话式 LTM 代理的性能比上下文大小为 128,000 个 token 的 GPT-4-turbo 高出 13%,而成本不到 16%。我们相信,我们的结果有助于说明 LTM 作为一种工具的实用性,它不仅扩展了 LLM 的上下文窗口,而且使其动态化,并帮助 LLM 推理其过去的知识,从而更好地整合其对话历史中的信息。我们期望 LTM 最终能让代理更好地学习,并使其能够终身学习。动机在 GoodAI,我们正在开发能够从与用户和环境的交互中不断学习的 LLM 代理。我们的目标是创造
来源:Marek Rosa - Goodai博客作为我们在持续学习领域研究工作的一部分,我们正在开源一个基准,用于测试代理在非常长的对话中执行涉及高级使用记忆的任务的能力。除其他外,我们评估代理在需要动态维护记忆或长期整合信息的任务上的表现。
持续学习我们正在开源:
我们表明,信息的可用性是解决这些任务的必要条件,但不是充分条件。在我们的初始基准中,具有 8k 上下文的对话 LTM 代理与具有 128k 个令牌的长上下文 GPT-4-1106 相当。在内存要求高出 10 倍的更大基准中,具有 8k 上下文的对话 LTM 代理的性能比上下文大小为 128,000 个令牌的 GPT-4-turbo 好 13%,而成本不到 16%。
具有 8k 个上下文的 LTM 代理与具有 128k 个 token 的长上下文 GPT-4-1106 相当。 好 13% 成本降低 16%我们相信我们的结果有助于说明 LTM 作为一种工具的实用性,它不仅扩展了 LLM 的上下文窗口,而且使其动态化并帮助 LLM 推理其过去的知识,从而更好地整合其对话历史中的信息。我们期望 LTM 最终能让代理更好地学习,并使其具有终身学习的能力。
动机
在 GoodAI,我们正在开发能够从与用户和环境的交互中不断学习的 LLM 代理。我们的目标是创建能够终身学习的代理,这意味着他们不断从每一次新的体验中收集知识,并利用所有过去的知识在未来采取更好的行动和学习。过去,我们组织过 GoodAI 挑战赛,特别是 2017 年的渐进式学习赛,以激发持续学习的想法。
LLM 代理 持续学习 利用所有过去的知识来行动和学习 GoodAI 博客文章 Marek Rosa