Loading...
机构名称:
¥ 10.0

我们旨在评估大型语言模型(LLMS)进行具体的决策。尽管大量的工作一直在利用LLM在体现的环境中进行决策,但我们仍然缺乏对其性能的系统性理解,因为它们通常用于不同的域,用于不同的目的,并基于不同的输入和输出。此外,现有的评估倾向于仅依赖最终的成功率,因此很难确定LLM中缺少什么能力以及问题所在的地方,进而有效地和选择性地利用LLMS的药物。为了解决这些限制,我们提出了一个广义接口(e Mboded a gent i nterface),该界面支持基于LLM的模块的各种任务和输入输出规格的形式化。Specifically, it allows us to unify 1) a broad set of em- bodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpre- tation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics that break down evaluation into error types, such as hallucination errors, affordance errors, and various计划错误的类型。总体而言,我们的基准对LLMS在不同子任务中的性能进行了全面评估,从而指出了LLM驱动的体现体现的AI系统的优势和劣势,并提供了对LLM在体现决策中的有效和选择性使用的见解。

基准llms用于具体决策做出

基准llms用于具体决策做出PDF文件第1页

基准llms用于具体决策做出PDF文件第2页

基准llms用于具体决策做出PDF文件第3页

基准llms用于具体决策做出PDF文件第4页

基准llms用于具体决策做出PDF文件第5页

相关文件推荐

2024 年
¥2.0
2021 年
¥1.0
2024 年
¥11.0