获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
大语言模型(LLM)的最新进展增加了对评估其像人类代理能力的全面基准测试的需求。现有的基准测试虽然有用,但通常专注于特定的应用程序方案,强调任务完成,但未能剖析推动这些结果的基本技能。这种缺乏粒度使很难深深地辨别出失败的位置。此外,设置这些环境需要大量的努力,有时会出现不可靠性和可重复性的问题,尤其是在交互式任务中。到…