详细内容或原文请订阅后点击阅览
重建 PDF 忘记发送的目录,以便 RAG 可以按部分确定范围
企业文档智能 [Vol.1 #5septies] - 当 PDF 打印内容页面但没有显示大纲时,有两种方法可以将其恢复为结构,再加上每个人都忘记的页面对齐步骤这篇文章“重建 PDF 忘记发送的目录,因此 RAG 可以按部分划分范围”首先出现在《走向数据科学》上。
来源:走向数据科学企业文档智能中的文档解析伴侣,该系列使用四块砖构建企业 RAG 系统。它在一张表上扩展了第 5 条(文档解析):toc_df,即文档的节结构,当存在 PDF 的本机大纲(PyMuPDF 的 doc.get_toc)时,第 5 条将填充该表。这部分是关于不存在的情况,根据文档仍然在页面上显示的内容重建该结构。
打开 NIST FIPS 202,SHA-3 标准(美国政府工作,公共领域,请参阅 NIST 版权声明),然后翻到第七页。有一个干净的目录:左侧为章节标题,右侧为页码。现在在任何 PDF 查看器中打开同一文件并查看书签窗格。空的。内容页是页面上的墨水,不是机器可以使用的结构。作者写了一个非常好的目录,并且在没有暴露该文件的情况下发送了该文件。
第 5 条(文档解析)和第 5B 条(关系数据模型)依靠 PDF 的原生大纲 doc.get_toc() 来填充 toc_df。当它存在时它是准确的。但通常情况并非如此。大量真实文档、直接从 LaTeX 导出的论文、打印为 PDF 的合同、政府标准,都带有打印的内容页,但没有大纲。对于这些,toc_df 返回空,即使文档在第七页上清楚地告诉您其结构。
这个结构不太好。按章节检索范围(第七条)。分块器切入标题边界(第 5B 条)。摘要逐节浏览文档。这些步骤中的每一个都读取 toc_df。当它为空时,检索会回退到扫描每一页,分块器会在盲分页符上分裂,并且答案会丢失文档本身的结构。因此,本文回答的问题是狭隘而实用的:当文件没有提供大纲但打印内容页时,如何将该页面转回 toc_df?
