详细内容或原文请订阅后点击阅览

有效总结大量文档的基本指南，第 1 部分

2024年9月14日 00:10 33 Comments

文档摘要对于 GenAI 用例很重要，但如果文档太大怎么办！？继续阅读以了解我是如何解决这个问题的。“总结大量文本”——使用 GPT-4o 生成的图像文档摘要如今已成为使用现代生成式人工智能 (GenAI) 技术解决的最常见问题陈述之一（如果不是最常见问题）。检索增强生成 (RAG) 是一种用于解决该问题的常见但有效的解决方案架构。但是，如果文档本身太大以至于无法在单个 API 请求中作为一个整体发送怎么办？或者，如果它产生太多块而导致臭名昭著的“迷失在中间”上下文问题怎么办？在本文中，我将讨论我们在处理此类问题陈述时面临的挑战，并逐步介绍我使用 Greg Kamradt 在其 GitHub 存储库中提供的指导应用的解决方案。一些“上下文”RAG 是一种经过充分讨论和广泛实施的解决方案，用于解决使用 GenAI 技术进行文档摘要优化的问题。然而，与任何新技术或解决方案一样，它容易受到极端情况的挑战，尤其是在当今的企业环境中。两个主要问题是上下文长度与每次提示成本以及前面提到的“迷失在中间”上下文问题。让我们更深入地了解这些挑战。注意：我将使用 LangChain、Scikit-Learn、Numpy 和 Matplotlib 库在 Python 中执行练习，以进行快速迭代。上下文窗口和成本约束

来源:None

一些“上下文”

onText”

rag是一种详尽且已广泛实现的解决方案，用于解决使用Genai Technologies进行优化的文档的解决方案。但是，像任何新技术或解决方案一样，它很容易面临边缘挑战，尤其是在当今的企业环境中。两个主要问题是上下文长度，加上每次提示的成本和前面提到的“中间”上下文问题。让我们深入了解这些挑战。

注意：我将使用Langchain，Scikit-Learn，Numpy和Matplotlib库在Python中进行练习，以进行快速迭代。

注释： 我将使用兰班，scikit-learn，numpy和matplotlib库在Python中执行练习，以进行快速迭代。

上下文窗口和成本约束

今天，随着Genai启用了自动化工作流程，分析大文件已成为行业的期望/要求。人们希望通过提示LLM来快速从医疗报告或财务审核中找到相关信息。但是，有一个警告，企业文档不像我们在学者中处理的文档或数据集，大小相当大，并且相关信息几乎可以在文档中的任何地方显示。因此，诸如数据清洁/过滤之类的方法通常不是一个可行的选择，因为并非总是提供有关这些文档的域知识。

除此之外，即使是OpenAI的最新大型语言模型（LLM），例如OpenAi的GPT-4O，具有128K代币的上下文窗口也不能仅一次拍摄这些文档，甚至不仅可以消耗这些文档，而且响应质量也不符合标准，尤其是出于成本，它将不符合它。为了展示这一点，让我们以一个真实的示例来总结Gitlab的员工手册，该手册可以在此处下载。该文档可根据其GitHub存储库中的MIT许可免费获得。

在这里存储库 1 2 嵌入 3

在中间失落

在中间丢失， 纸

什么是K-均值聚类？

挑战相关性在中间成本约束实现 Numpy 迷失使用 Learn 技术问题 Python 提示 LangChain 论文自动化迭代注意 Scikit 上下文练习数据集领域知识 " 文档 Matplotlib 初始化

有效总结大量文档的基本指南，第 1 部分

一些“上下文”

上下文窗口和成本约束

在中间失落

什么是K-均值聚类？

其他外部链接

Tags

XiaoMi-AI