5个有用的Python脚本,用于繁忙的数据科学家

厌倦了在重复数据任务上花费数小时?这些python脚本可能会派上用场,以便为了简化日常工作流程而过度劳累的数据科学家。

来源:KDnuggets
作者的图像|意识形态图

#简介

如果您花费更多的时间来使用文件格式和数据清理摔跤,而不是实际分析数据,那么您并不孤单。大多数数据专业人员将60-80%的时间浪费在重复的任务上,这些任务将注意力从更具挑战性和重要的重要任务中脱颖而出。

在本文中,我在下面编写了一些有用的python脚本,以简化典型数据工作流程中的无聊但必不可少的任务。

链接到GitHub上的代码

#1。数据质量检查器

疼痛点:打开一个新数据集通常会感到不知所措。有缺少值吗?重复?怪异的数据类型?您最终会一遍又一遍地编写相同的探索代码,或者更糟的是,在分析数小时后发现数据问题。

疼痛点

该脚本的作用:一个简单的Python脚本来处理给定的数据框架并生成简洁的数据质量报告,其中包含有关缺失值,重复项,异常值等的信息。然后将所有内容保存到可读的文本文件中,您可以根据需要参考。

脚本做什么

它的工作原理:脚本系统地检查常见的数据质量问题 - 重复,缺失值,错误的数据类型 - 使用pandas内置方法,计算百分比和统计信息,然后将所有内容格式化为干净的报告。它使用四分位间范围(IQR)方法进行离群检测,该检测可在不同的数据分布中可靠地起作用。

它的工作原理

⏩获取数据质量检查器脚本

获取数据质量检查器脚本

#2。智能文件合并

疼痛点:您的数据在CSV文件,Excel表和散布在文件夹中的JSON导出。手动组合它们意味着打开每个文件,检查列对齐,拷贝贴并祈祷什么都没有破坏。是的,一个不匹配的专栏足以破坏一切。

脚本的作用:无论格式如何(CSV,Excel,JSON),自动找到并将所有数据文件组合在一起。处理列不匹配的列不匹配,并跟踪哪些数据来自哪个源文件。