摘要。从演示中学习(LFD)的程序化学习的目的是学习一种编程语言的策略,该策略可用于从一组用户演示中控制机器人的行为。本文提出了一种新的程序化LFD算法,该算法针对长马机器人任务,该任务需要具有复杂控制流结构的合成程序,包括具有多个条件性的嵌套循环。我们提出的方法首先学习了一个程序草图,该程序草图捕获了目标程序的控制流,然后使用LLM引导的搜索步骤完成了此草图,该过程结合了一种新技术,以证明编程划分问题的不实现性。我们已经在一种名为Prolex的新工具中实施了我们的方法,并在涉及复杂任务和环境的120个基准上进行了全面的实验评估结果。我们表明,鉴于120秒的限制,Prolex可以在80%的情况下找到与示范一致的程序。此外,对于返回解决方案的81%的任务,Prolex只能通过一个演示找到地面真相计划。相比,CVC5是一种语法引导的合成工具,即使在给出了地面真相计划草图时,CVC5也只能解决25%的案例,而基于LLM的方法GPT-Synth无法解决由于环境复杂性而无法解决任何任务。
主要关键词