详细内容或原文请订阅后点击阅览
5 个有用的 Python 脚本来自动执行无聊的 PDF 任务
PDF 随处可见,这五个 Python 脚本可帮助您自动执行最常见的 PDF 任务。
来源:KDnuggets简介
PDF 文件广泛应用于许多工作流程中。您可能需要合并报告、拆分大文件、提取文本或表格、添加水印或编辑敏感内容。这些都是例行任务,但手动处理多个文件可能会很慢并且容易出错。这五个 Python 脚本自动化了该过程。它们从命令行运行,支持批处理,并且易于配置。
您可以在 GitHub 上找到所有脚本。
1.合并和拆分PDF文件
痛点
将多个 PDF 文件合并为一个,或按页面范围将大型 PDF 拆分为单独的文件,是最常见的 PDF 任务之一。手动执行这两种操作都很乏味,特别是在处理许多文件或大页数时。
脚本的作用
按可配置的顺序将 PDF 文件的文件夹合并为单个输出文件,或按固定页面范围、每 N 页或特定页码列表将单个 PDF 拆分为单独的文件。这两个操作均由同一脚本通过模式标志处理。
工作原理
该脚本使用 pypdf 进行所有页面级操作。在合并模式下,它从输入文件夹中读取所有 PDF,按文件名(或文本文件中定义的自定义顺序)对它们进行排序,然后将它们按顺序写入单个输出 PDF。在拆分模式下,它接受页面范围列表、固定块大小或要拆分的页码列表。每个分割段都写入一个编号的输出文件。第一个输入文件中的元数据以合并模式保留。
⏩获取 PDF 合并和拆分脚本
2. 从 PDF 中提取文本和表格
从 PDF 中获取可用数据(无论是报告中的文本还是报表中的表格数据)是进行任何进一步处理之前需要执行的操作。对于超出几页的内容,从 PDF 查看器进行复制粘贴是不切实际的,而且输出很少是干净的。
⏩获取 PDF 文本和表格提取器脚本
3. 盖章、水印和添加页码
⏩获取 PDF 标记脚本
