GoodAI LTM Benchmark v3 发布
GoodAI LTM 基准测试的主要目的一直是作为我们在开发能够持续和终身学习的代理方面取得进展的客观衡量标准。但是,我们也希望它对开发此类代理的任何人都有用。为了实现这一点,我们已将此版本定位为更易于理解并产生更标准化的结果,我们希望这些结果更容易进行比较和分析。从基准测试的第一个版本开始,我们就将特定的测试实例分组到数据集或任务类型中。例如,有一个名为“购物清单”的数据集,我们可以从中抽取任意数量的不同测试实例,以评估代理记住一系列物品并保留用户购物清单的更新版本的能力。在早期版本中,每个测试可能会产生任意数量的分数点,并且这些分数点未标准化。这可能导致令人困惑的情况,即通过高度复杂的测试只能获得少量分数,而只需让代理参加几个相同简单测试的示例即可获得高得多的分数。相比之下,现在的评分在不同级别上进行了标准化。首先,每个测试分数范围从零到一。其次,从同一数据集运行多个测试将产生该数据集的平均分数和标准差。这样,人们就可以查看全局分数,知道它恰好对应于 o
来源:Marek Rosa - Goodai博客GoodAI LTM 基准测试的主要目的一直是作为我们在开发能够持续和终身学习的代理方面取得进展的客观衡量标准。但是,我们也希望它对开发此类代理的任何人都有用。为了实现这一点,我们已将此版本定位为更易于理解并产生更标准化的结果,我们希望这些结果更容易进行比较和分析。
持续和终身学习。从基准测试的第一个版本开始,我们就将特定的测试实例分组到数据集或任务类型中。例如,有一个名为“购物清单”的数据集,我们可以从中抽取任意数量的不同测试实例,以评估代理记住一系列物品并保留用户购物清单的更新版本的能力。
我们已经将特定的测试实例分组到数据集或任务类型中。在早期版本中,每个测试可能会产生任意数量的分数,并且这些分数没有标准化。这可能导致令人困惑的情况,在这种情况下,通过高度复杂的测试只会给出几个分数,而只需将代理提交给同一个简单测试的几个示例就可以获得更高的分数。
相比之下,现在得分在不同级别上进行了标准化。首先,每个测试分数范围从零到一。其次,从同一数据集运行多个测试将产生该数据集的平均分数和标准差。这样,人们就可以查看全局分数,知道它对应于每个数据集的一个点,这使得它更容易解释。此外,从单个数据集运行多个测试可以提供有关代理性能的稳健性的宝贵见解。
每个测试分数范围从零到一。 该数据集的平均分数和标准差。 每个数据集一个点