基准llms用于具体决策做出___XiaoMi-AI 助力科研平台

基准llms用于具体决策做出

可下载资源数量

已经购买

下载数量：1

单价	0 10.0
Coupon	100% 0%
Total	0 10.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

基准llms用于具体决策做出

¥ 10.0

热度

我们旨在评估大型语言模型（LLMS）进行具体的决策。尽管大量的工作一直在利用LLM在体现的环境中进行决策，但我们仍然缺乏对其性能的系统性理解，因为它们通常用于不同的域，用于不同的目的，并基于不同的输入和输出。此外，现有的评估倾向于仅依赖最终的成功率，因此很难确定LLM中缺少什么能力以及问题所在的地方，进而有效地和选择性地利用LLMS的药物。为了解决这些限制，我们提出了一个广义接口（e Mboded a gent i nterface），该界面支持基于LLM的模块的各种任务和输入输出规格的形式化。Specifically, it allows us to unify 1) a broad set of em- bodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpre- tation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics that break down evaluation into error types, such as hallucination errors, affordance errors, and various计划错误的类型。总体而言，我们的基准对LLMS在不同子任务中的性能进行了全面评估，从而指出了LLM驱动的体现体现的AI系统的优势和劣势，并提供了对LLM在体现决策中的有效和选择性使用的见解。

添加pdf代下载 VIP点击下载文件