Loading...
机构名称:
¥ 1.0

摘要在揭示了大语言模型(LLM)的显着性能之后,它们的功能迅速使用了诸如检索增强发电(RAG)之类的技术。鉴于它们的广泛适用性和快速发展,考虑它们对社会系统的影响至关重要。另一方面,由于其广泛的能力和社会系统的复杂本质,评估这些高级LLM会构成挑战。在这项研究中,我们关注社会系统中LLM与开放环境中类人动物机器人的相似性。我们列举了控制问题解决中类人动物所需的基本组件,这些组合有助于我们探索LLM的核心能力并评估这些组合中任何缺陷的影响。这种方法是合理的,因为人类系统的有效性已得到彻底证明和认可。为了确定解决问题的任务中类人动物所需的组件,我们创建了一个广泛的组件框架,以计划和控制开放环境中的类人动物机器人。然后评估LLM对每个组件的影响和风险,参考最新基准测试以评估其当前的优势和劣势。按照我们的框架指导的评估,我们确定了LLM所缺乏的能力以及对社会系统的关注。

用抹布能力评估大型语言模型

用抹布能力评估大型语言模型PDF文件第1页

用抹布能力评估大型语言模型PDF文件第2页

用抹布能力评估大型语言模型PDF文件第3页

用抹布能力评估大型语言模型PDF文件第4页

用抹布能力评估大型语言模型PDF文件第5页

相关文件推荐

2024 年
¥1.0
2025 年
¥1.0