Prompt Engineering for Cognitive Flexibility
使用 MMLU-Pro 进行实验的实用见解和分析来源:图片由作者提供,由 MidJourney 生成简介开发能够像人类一样思考、计划和决策等的 AI 代理是当前研究和讨论的一个突出领域。目前,LLM 已成为这些代理的基础构建块。随着我们追求越来越复杂的能力,无论使用哪种法学硕士,我们不可避免地会一遍又一遍地遇到相同类型的问题,包括:模型是否具有准确高效地完成任务所需的知识?如果有适当的知识,我们如何可靠地激活它?模型是否能够模仿复杂的认知行为,例如推理、规划和决策,达到可接受的熟练程度?本文通过我最近进行的一项利用最新 MMLU-Pro 基准的小型实验来探讨这些问题。研究结果带来了一些关于认知
The Shift from Models to Compound AI Systems
2023 年,AI 凭借大型语言模型 (LLM) 吸引了所有人的注意力,只需提示即可指示该模型执行一般任务,例如翻译或编码。这自然导致人们强烈关注模型作为 AI 应用程序开发的主要要素,每个人都想知道新的 LLM 将带来哪些功能。然而,随着越来越多的开发人员开始使用 LLM 进行构建,我们相信这种关注点正在迅速改变:最先进的 AI 结果越来越多地由具有多个组件的复合系统获得,而不仅仅是单片模型。例如,Google 的 AlphaCode 2 通过精心设计的系统在编程中设置了最先进的结果,该系统使用 LLM 为任务生成多达 100 万种可能的解决方案,然后筛选该集合。同样,AlphaGeomet