详细内容或原文请订阅后点击阅览
从模型到复合 AI 系统的转变
2023 年,AI 凭借大型语言模型 (LLM) 吸引了所有人的注意力,只需提示即可指示该模型执行一般任务,例如翻译或编码。这自然导致人们强烈关注模型作为 AI 应用程序开发的主要要素,每个人都想知道新的 LLM 将带来哪些功能。然而,随着越来越多的开发人员开始使用 LLM 进行构建,我们相信这种关注点正在迅速改变:最先进的 AI 结果越来越多地由具有多个组件的复合系统获得,而不仅仅是单片模型。例如,Google 的 AlphaCode 2 通过精心设计的系统在编程中设置了最先进的结果,该系统使用 LLM 为任务生成多达 100 万种可能的解决方案,然后筛选该集合。同样,AlphaGeometry 将 LLM 与传统的符号求解器相结合来解决奥林匹克问题。在企业中,Databricks 的同事发现 60% 的 LLM 应用程序使用某种形式的检索增强生成 (RAG),30% 的应用程序使用多步骤链。即使是从事传统语言模型任务的研究人员,过去也报告单个 LLM 调用的结果,现在也报告越来越复杂的推理策略的结果:微软撰写了一篇关于链式策略的文章,该策略在医学检查中的准确率比 GPT-4 高出 9%,谷歌的 Gemini 发布帖使用新的 CoT@32 推理策略测量了其 MMLU 基准测试结果,该策略调用了模型 32 次,这引发了疑问
来源:BAIR2023 年,AI 凭借大型语言模型 (LLM) 吸引了所有人的注意力,只需提示即可指示该模型执行一般任务,例如翻译或编码。这自然导致人们高度关注模型作为 AI 应用程序开发的主要要素,每个人都想知道新的 LLM 将带来哪些功能。然而,随着越来越多的开发人员开始使用 LLM 进行构建,我们相信这种关注点正在迅速改变:最先进的 AI 结果越来越多地由具有多个组件的复合系统获得,而不仅仅是单片模型。
最先进的 AI 结果越来越多地由具有多个组件的复合系统获得,而不仅仅是单片模型例如,Google 的 AlphaCode 2 通过精心设计的系统在编程方面取得了最先进的成果,该系统使用 LLM 为任务生成多达 100 万种可能的解决方案,然后筛选出该集合。同样,AlphaGeometry 将 LLM 与传统的符号求解器相结合,以解决奥林匹克问题。在企业中,我们在 Databricks 的同事发现 60% 的 LLM 应用程序使用某种形式的检索增强生成 (RAG),30% 使用多步骤链。即使是从事传统语言模型任务的研究人员,过去也报告单个 LLM 调用的结果,现在也报告越来越复杂的推理策略的结果:微软撰写了一篇关于链式策略的文章,该策略在医学检查中的准确率比 GPT-4 高出 9%,谷歌的 Gemini 发布帖子使用新的 CoT@32 推理策略测量了其 MMLU 基准测试结果,该策略调用模型 32 次,这引发了人们对其与仅调用一次 GPT-4 进行比较的质疑。这种向复合系统的转变引发了许多有趣的设计问题,但它也令人兴奋,因为这意味着领先的人工智能结果可以通过巧妙的工程来实现,而不仅仅是扩大训练规模。
AlphaCode 2 AlphaGeometry 检索增强生成 (RAG) 撰写 Google 的 Gemini 发布帖