详细内容或原文请订阅后点击阅览
aspera:一个模拟环境,用于评估复杂行动执行的计划
这项工作评估了大语言模型(LLM)对能够进行复杂行动执行的数字助手的潜力。这些助手依靠预先训练的编程知识来执行多步目标,通过将助手库中定义的对象和功能撰写为行动执行程序。为了实现这一目标,我们开发了Aspera,该框架包括助理图书馆模拟和人为辅助的LLM数据生成引擎。我们的引擎允许开发人员指导LLM生成由复杂用户查询,模拟状态和…
来源:Apple机器学习研究这项工作评估了大语言模型(LLM)对能够进行复杂行动执行的数字助手的潜力。这些助手依靠预先训练的编程知识来执行多步目标,通过将助手库中定义的对象和功能撰写为行动执行程序。为了实现这一目标,我们开发了Aspera,该框架包括助理图书馆模拟和人为辅助的LLM数据生成引擎。我们的引擎允许开发人员指导LLM生成高质量任务,这些任务包括复杂的用户查询,模拟状态和相应的验证程序,解决数据可用性和评估鲁棒性挑战。除了框架之外,我们发布了Asper-Bench,这是使用Aspera生成的250个具有挑战性的任务的评估数据集,我们用来表明与无依赖性代码生成相比,在自定义助理库中基于自定义助理库中的程序生成是一个重大挑战。
- *在Apple†剑桥大学完成时完成的工作‡Meta