惰性数据科学家探索性数据分析指南

如何使用Python的自动化工具加快探索性数据分析,并在20%的时间内获得80%的见解。

来源:KDnuggets
作者图片

# 简介

#

探索性数据分析 (EDA) 是任何数据项目的关键阶段。它可确保数据质量、生成见解,并提供在开始建模之前发现数据缺陷的机会。但我们必须面对现实:手动 EDA 通常速度慢、重复性强且容易出错。重复编写相同的绘图、检查或汇总函数可能会导致时间和注意力像漏勺一样流失。

幸运的是,Python 生态系统中当前的自动化 EDA 工具套件可以为大部分工作提供快捷方式。通过采用高效的方法,您只需 20% 的工作即可获得 80% 的洞察力,从而将剩余的时间和精力专注于生成洞察力和制定决策的后续步骤。

Python

# 什么是探索性数据分析 EDA?

EDA 的核心是总结和理解数据集主要特征的过程。典型任务包括:

    检查缺失值和重复值可视化关键变量的分布探索特征之间的相关性评估数据质量和一致性
  • 检查缺失值和重复项
  • 可视化关键变量的分布
  • 探索特征之间的相关性
  • 评估数据质量和一致性
  • 跳过 EDA 可能会导致糟糕的模型、误导性的结果和错误的业务决策。如果没有它,您就有可能在不完整或有偏见的数据上构建模型。

    那么,既然我们知道它是强制性的,我们怎样才能使它变得更容易呢?

    # 自动化 EDA 的“惰性”方法

    成为一名“懒惰”的数据科学家并不意味着粗心;而是意味着粗心。这意味着高效。您可以依靠自动化进行重复检查和可视化,而不是每次都重新发明轮子。

    这种方法:

      通过避免样板代码来节省时间通过在几分钟内生成完整的数据集概述来提供快速成功让您专注于解释结果而不是生成结果
  • 通过避免样板代码来节省时间
  • 让您专注于解释结果而不是生成结果
  • //