详细内容或原文请订阅后点击阅览
有效总结大量文档的基本指南,第 1 部分
文档摘要对于 GenAI 用例很重要,但如果文档太大怎么办!?继续阅读以了解我是如何解决这个问题的。“总结大量文本”——使用 GPT-4o 生成的图像文档摘要如今已成为使用现代生成式人工智能 (GenAI) 技术解决的最常见问题陈述之一(如果不是最常见问题)。检索增强生成 (RAG) 是一种用于解决该问题的常见但有效的解决方案架构。但是,如果文档本身太大以至于无法在单个 API 请求中作为一个整体发送怎么办?或者,如果它产生太多块而导致臭名昭著的“迷失在中间”上下文问题怎么办?在本文中,我将讨论我们在处理此类问题陈述时面临的挑战,并逐步介绍我使用 Greg Kamradt 在其 GitHub 存储库中提供的指导应用的解决方案。一些“上下文”RAG 是一种经过充分讨论和广泛实施的解决方案,用于解决使用 GenAI 技术进行文档摘要优化的问题。然而,与任何新技术或解决方案一样,它容易受到极端情况的挑战,尤其是在当今的企业环境中。两个主要问题是上下文长度与每次提示成本以及前面提到的“迷失在中间”上下文问题。让我们更深入地了解这些挑战。注意:我将使用 LangChain、Scikit-Learn、Numpy 和 Matplotlib 库在 Python 中执行练习,以进行快速迭代。上下文窗口和成本约束
来源:None一些“上下文”
onText”rag是一种详尽且已广泛实现的解决方案,用于解决使用Genai Technologies进行优化的文档的解决方案。但是,像任何新技术或解决方案一样,它很容易面临边缘挑战,尤其是在当今的企业环境中。两个主要问题是上下文长度,加上每次提示的成本和前面提到的“中间”上下文问题。让我们深入了解这些挑战。
注意:我将使用Langchain,Scikit-Learn,Numpy和Matplotlib库在Python中进行练习,以进行快速迭代。注释 : 我将使用兰班,scikit-learn,numpy和matplotlib库在Python中执行练习,以进行快速迭代。
上下文窗口和成本约束
今天,随着Genai启用了自动化工作流程,分析大文件已成为行业的期望/要求。人们希望通过提示LLM来快速从医疗报告或财务审核中找到相关信息。但是,有一个警告,企业文档不像我们在学者中处理的文档或数据集,大小相当大,并且相关信息几乎可以在文档中的任何地方显示。因此,诸如数据清洁/过滤之类的方法通常不是一个可行的选择,因为并非总是提供有关这些文档的域知识。
除此之外,即使是OpenAI的最新大型语言模型(LLM),例如OpenAi的GPT-4O,具有128K代币的上下文窗口也不能仅一次拍摄这些文档,甚至不仅可以消耗这些文档,而且响应质量也不符合标准,尤其是出于成本,它将不符合它。为了展示这一点,让我们以一个真实的示例来总结Gitlab的员工手册,该手册可以在此处下载。该文档可根据其GitHub存储库中的MIT许可免费获得。
在这里 存储库 1 2 嵌入 3