mmau:跨不同领域的代理能力的整体基准

大语言模型(LLM)的最新进展增加了对评估其像人类代理能力的全面基准测试的需求。现有的基准测试虽然有用,但通常专注于特定的应用程序方案,强调任务完成,但未能剖析推动这些结果的基本技能。这种缺乏粒度使很难深深地辨别出失败的位置。此外,设置这些环境需要大量的努力,有时会出现不可靠性和可重复性的问题,尤其是在交互式任务中。到…

来源:Apple机器学习研究

大语言模型(LLM)的最新进展增加了对评估其像人类代理能力的全面基准测试的需求。现有的基准测试虽然有用,但通常专注于特定的应用程序方案,强调任务完成,但未能剖析推动这些结果的基本技能。这种缺乏粒度使很难深深地辨别出失败的位置。此外,设置这些环境需要大量的努力,有时会出现不可靠性和可重复性的问题,尤其是在交互式任务中。为了解决这些限制,我们介绍了大规模的多任务代理理解(MMAU)基准,其中包含全面的离线任务,以消除对复杂环境设置的需求。它评估了跨五个领域的模型,包括工具使用,定向的无环图(DAG)质量保证,数据科学和机器学习编码,竞赛级别的编程和数学,涵盖了五个基本功能:理解,推理,计划,解决问题,解决问题和自我纠正。 MMAU共有20个精心设计的任务,其中包含3K不同的提示,提供了一个全面的框架,用于评估LLM代理的优势和局限性。通过测试MMAU上的18个代表性模型,我们提供了深入而有见地的分析。最终,MMAU不仅阐明了LLM代理的能力和局限性,而且还提高了其性能的解释性。