重建 PDF 忘记发送的目录，以便 RAG 可以按部分确定范围 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

重建 PDF 忘记发送的目录，以便 RAG 可以按部分确定范围

2026年6月21日 15:00 33 Comments

企业文档智能 [Vol.1 #5septies] - 当 PDF 打印内容页面但没有显示大纲时，有两种方法可以将其恢复为结构，再加上每个人都忘记的页面对齐步骤这篇文章“重建 PDF 忘记发送的目录，因此 RAG 可以按部分划分范围”首先出现在《走向数据科学》上。

来源:走向数据科学

企业文档智能中的文档解析伴侣，该系列使用四块砖构建企业 RAG 系统。它在一张表上扩展了第 5 条（文档解析）：toc_df，即文档的节结构，当存在 PDF 的本机大纲（PyMuPDF 的 doc.get_toc）时，第 5 条将填充该表。这部分是关于不存在的情况，根据文档仍然在页面上显示的内容重建该结构。

第 5 条（文档解析）和第 5B 条（关系数据模型）依靠 PDF 的原生大纲 doc.get_toc() 来填充 toc_df。当它存在时它是准确的。但通常情况并非如此。大量真实文档、直接从 LaTeX 导出的论文、打印为 PDF 的合同、政府标准，都带有打印的内容页，但没有大纲。对于这些，toc_df 返回空，即使文档在第七页上清楚地告诉您其结构。

这个结构不太好。按章节检索范围（第七条）。分块器切入标题边界（第 5B 条）。摘要逐节浏览文档。这些步骤中的每一个都读取 toc_df。当它为空时，检索会回退到扫描每一页，分块器会在盲分页符上分裂，并且答案会丢失文档本身的结构。因此，本文回答的问题是狭隘而实用的：当文件没有提供大纲但打印内容页时，如何将该页面转回 toc_df？

1. 两半：读取条目，然后找到其真正的页面

3. 点击链接

doc 打印的准确的回答的本身的内容结构解析标题每一个美国 get 使用的导出的 toc 实用的大纲文档章节真正的数据模型美国政府企业页面根据 PDF 没有 df 干净的文件不存在