toolsandbox:LLM工具使用功能的状态,对话,交互式评估基准

最近的大型语言模型(LLMS)的进步引发了人们对工具协助LLMS解决现实世界挑战的越来越多的研究兴趣,该挑战要求对工具使用功能进行全面评估。虽然先前的作品重点是根据单个转弯用户提示进行评估对无状态的Web服务(RESTFUL API),或者是基于单个转弯的对话框轨迹,但ToolsAndbox包括已实行的工具执行,工具之间的隐式状态依赖关系,工具之间的内置用户模拟器,支持机上的对话评估和用于Intermediped和entermediped和最终的动态评估策略的内置用户模拟器

来源:Apple机器学习研究

最近的大型语言模型(LLMS)的进步引发了人们对工具协助LLMS解决现实世界挑战的越来越多的研究兴趣,该挑战要求对工具使用功能进行全面评估。虽然先前的作品侧重于评估无状态的Web服务(RESTFUL API),但基于单个转弯用户提示,或者是偏离政策对话框轨迹,但ToolsAndbox包括状态工具执行,工具之间的隐式状态依赖性,工具之间的内置用户模拟器支持上policy colicy对话评估的内置用户模拟器,以互联网和最终的仲裁轨迹进行动态评估策略。我们表明,开源和专有模型具有显着的性能差距,并且在ToolsAndbox中定义的国家依赖性,规范化和不足的信息等复杂的任务也在挑战甚至最有能力的SOTA LLMS,从而为工具使用LLM功能提供了全新的见解。