详细内容或原文请订阅后点击阅览
5 个有用的 Python 脚本来自动执行无聊的 Excel 任务
合并电子表格、清理导出和拆分报告是必要但乏味的任务。这些 Python 脚本处理重复部分,以便您可以专注于实际工作。
来源:KDnuggets简介
Excel 仍然与数据工作相关,但使用它的很大一部分时间是纯粹机械的。合并来自多个源的文件、追踪重复记录、重新格式化不一致的导出以及将母版表拆分为单独的文件等任务并不复杂,但它们非常耗时且容易出现人为错误。
这五个 Python 脚本有助于自动执行这些任务。每一个都是独立的、可配置的,并且设计用于处理混乱的现实世界数据。
您可以在 GitHub 上找到所有脚本。
合并多个 Excel 文件
痛点
合并来自多个 Excel 或逗号分隔值 (CSV) 文件的数据时,手动过程(打开每个文件、复制数据并粘贴到主工作表中)速度很慢,并且容易出现未对齐错误,特别是当文件之间的列顺序不同时。
脚本的作用
此脚本扫描文件夹中的 .xlsx 和 .csv 文件,将所有数据堆叠到一个统一的工作表中,并写入一个干净的合并输出文件。它可以选择添加源列,以便您始终知道哪一行源自哪个文件,并且它会自动处理不匹配的列顺序。
工作原理
该脚本使用 pandas 读取目标目录中的每个文件,按名称而不是位置对齐列,并将所有内容连接到一个 DataFrame 中。可配置的 add_source_column 标志将原始文件名附加到每一行。列不匹配会被记录下来,以便您知道某些文件是否有额外或缺失的字段。输出是用 openpyxl 编写的,并包含一个显示逐个文件行计数的摘要选项卡。
⏩获取Excel文件合并脚本
查找并标记重复行
重复记录在跨系统导出和重新导入的数据集中很常见。精确匹配很容易找到,但接近重复的内容(相同的记录,格式或间距略有不同)很难大规模手动捕获。
⏩获取重复的查找脚本
