详细内容或原文请订阅后点击阅览
LTM Benchmark:改进和新报告
在 GoodAI,我们致力于开发能够持续和终身学习的代理。作为我们努力的一部分,我们之前已经开源了 GoodAI LTM 基准,这是一套旨在评估任何对话代理的长期记忆 (LTM) 能力的测试。在这个基准中,所有任务都作为代理和我们的虚拟测试人员之间一次非常长的对话的一部分进行。基准交织了来自不同任务的信息和探索性问题,尽管特别注意将它们编织成自然对话。LTM = 长期记忆作为我们对具有 LTM 的代理进行研究的直接结果,GoodAI LTM 基准在不断发展。对我们来说,它是评估我们的代理和验证我们的假设的宝贵工具。此外,它帮助我们描述不同代理失败的方式,因此它为我们提供了目标。在 GoodAI LTM 团队中,我们将 GoodAI LTM 基准视为一个移动的目标,通过引入新任务和功能,我们不断将这个目标推开,因为如果目标很容易实现,那它还有什么价值呢?新功能随着每个新功能的推出,我们试图让 GoodAI LTM 基准不仅越来越具有挑战性,而且更加现实。对 LTM 进行基准测试的关键在于,你需要将测试时间拉长,非常长。因此,你要么引入大量虚拟交互来填补对话,要么接受这一点
来源:Marek Rosa - Goodai博客在 GoodAI,我们致力于开发能够持续学习和终身学习的代理。作为我们努力的一部分,我们之前已经开源了 GoodAI LTM 基准,这是一套旨在评估任何对话代理的长期记忆 (LTM) 能力的测试。在这个基准中,所有任务都是代理和我们的虚拟测试人员之间一次非常长的对话的一部分。基准将来自不同任务的信息和探索性问题交织在一起,尽管特别注意将它们编织成自然对话。
持续学习和终身学习。 GoodAI LTM 基准 GoodAI LTM 基准 评估长期记忆 (LTM) 能力 非常长的对话LTM = 长期记忆
LTM = 长期记忆作为我们对具有 LTM 的代理进行研究的直接结果,GoodAI LTM 基准在不断发展。对我们来说,它是评估我们的代理和验证我们的假设的宝贵工具。此外,它帮助我们描述不同代理失败的方式,因此它为我们提供了目标。在 GoodAI LTM 团队中,我们将 GoodAI LTM 基准视为一个移动的目标,通过引入新任务和功能,我们不断将该目标推开,因为如果目标很容易达到,那它还有什么价值呢?
GoodAI LTM 团队 GoodAI LTM 基准新功能
有关更多详细信息,请继续阅读 GoodAI 博客文章
有关更多详细信息,请继续阅读 GoodAI 博客文章 有关更多详细信息,请继续阅读 GoodAI 博客文章 GoodAI 博客文章感谢您阅读本博客!
感谢您阅读本博客!祝好,Marek RosaKeen Software House 首席执行官、创意总监、创始人GoodAI 首席执行官、首席技术官、创始人
Marek Rosa更多新闻:GoodAI Discord:https://discord.gg/Pfzs7WWJwfSpace Engineers:www.SpaceEngineersGame.comKeen Software House:www.keenswh.comVRAGE Engine:www.keenswh.com/vrage/GoodAI:www.GoodAI.com个人博客:blog.marekrosa.org
https://discord.gg/Pfzs7WWJwf www.SpaceEngineersGame.com www.keenswh.com