ToolsAndbox领域信息情报检索---XiaoMi-AI

2025年3月26日 00:00

toolsandbox：LLM工具使用功能的状态，对话，交互式评估基准

ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities

最近的大型语言模型（LLMS）的进步引发了人们对工具协助LLMS解决现实世界挑战的越来越多的研究兴趣，该挑战要求对工具使用功能进行全面评估。虽然先前的作品重点是根据单个转弯用户提示进行评估对无状态的Web服务（RESTFUL API），或者是基于单个转弯的对话框轨迹，但ToolsAndbox包括已实行的工具执行，工具之间的隐式状态依赖关系，工具之间的内置用户模拟器，支持机上的对话评估和用于Intermediped和entermediped和最终的动态评估策略的内置用户模拟器

ToolsAndbox关键词检索结果

toolsandbox：LLM工具使用功能的状态，对话，交互式评估基准