对自然语言规划的 llms 进行基准测试__

对自然语言规划的 llms 进行基准测试

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

对自然语言规划的 llms 进行基准测试

¥ 1.0

热度

我们引入了 N ATURAL P LAN ，这是一个自然语言中的现实规划基准，包含 3 个关键任务：旅行规划、会议规划和日历安排。我们将评估重点放在 LLM 的规划能力上，并提供关于任务的完整信息，方法是将 Google 航班、Google 地图和 Google 日历等工具的输出作为模型的上下文。这样就无需使用工具使用环境来评估规划上的 LLM。我们观察到 N ATURAL P LAN 是针对最先进模型的具有挑战性的基准。例如，在旅行规划中，GPT-4 和 Gemini 1.5 Pro 分别只能实现 31.1% 和 34.8% 的解决率。我们发现，随着问题复杂性的增加，模型性能急剧下降：当有 10 个城市时，所有模型的性能都低于 5%，这凸显了 SoTA LLM 在自然语言规划方面存在巨大差距。我们还对 N ATURAL P LAN 进行了广泛的消融研究，以进一步阐明自我校正、少量泛化和具有长上下文的上下文规划等方法对改进 LLM 规划的 (不) 有效性。

添加pdf代下载 VIP点击下载文件