获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities
最近的大型语言模型(LLMS)的进步引发了人们对工具协助LLMS解决现实世界挑战的越来越多的研究兴趣,该挑战要求对工具使用功能进行全面评估。虽然先前的作品重点是根据单个转弯用户提示进行评估对无状态的Web服务(RESTFUL API),或者是基于单个转弯的对话框轨迹,但ToolsAndbox包括已实行的工具执行,工具之间的隐式状态依赖关系,工具之间的内置用户模拟器,支持机上的对话评估和用于Intermediped和entermediped和最终的动态评估策略的内置用户模拟器