LTM Benchmark: Improvements and new reports
在 GoodAI,我们致力于开发能够持续和终身学习的代理。作为我们努力的一部分,我们之前已经开源了 GoodAI LTM 基准,这是一套旨在评估任何对话代理的长期记忆 (LTM) 能力的测试。在这个基准中,所有任务都作为代理和我们的虚拟测试人员之间一次非常长的对话的一部分进行。基准交织了来自不同任务的信息和探索性问题,尽管特别注意将它们编织成自然对话。LTM = 长期记忆作为我们对具有 LTM 的代理进行研究的直接结果,GoodAI LTM 基准在不断发展。对我们来说,它是评估我们的代理和验证我们的假设的宝贵工具。此外,它帮助我们描述不同代理失败的方式,因此它为我们提供了目标。在 GoodAI