详细内容或原文请订阅后点击阅览
使用 Pinouin 构建现代 EDA 管道
了解如何为严格的统计 EDA 构建整体管道,验证多个重要的数据属性。
来源:KDnuggets简介
任何花费大量时间进行数据科学的人迟早都会学到一些东西:下游机器学习建模的黄金法则,称为垃圾输入、垃圾输出 (GIGO)。
例如,为线性回归模型提供高度共线的数据,或对异方差进行方差分析测试,是解决无法正确学习的无效模型的完美方法。
探索性数据分析 (EDA) 在散点图和直方图等可视化方面有很多话要说,但当我们需要根据下游分析或模型所需的数学假设对数据进行严格验证时,它们还不够。Pingouin 通过弥合数据科学和统计学中两个著名库(SciPy 和 pandas)之间的差距来帮助实现这一目标。此外,它还可以成为构建可靠、自动化 EDA 管道的重要盟友。本文将教您如何为严格的统计 EDA 构建整体管道,并验证几个重要的数据属性。
初始设置
首先确保我们在 Python 环境中安装了 Pinouin(还有 pandas,以防万一您还没有安装):
!pip install pingouin pandas
之后,是时候导入这些关键库并加载我们的数据了。作为开放数据集的示例,我们将使用包含葡萄酒特性及其质量样本的数据集。
将 pandas 导入为 pd
将 pingouin 导入为 pg
# 从开放数据集 GitHub 存储库加载 wine 数据集
url =“https://raw.githubusercontent.com/gakudo-ai/open-datasets/refs/heads/main/wine-quality-white-and-red.csv”
df = pd.read_csv(url)
# 显示前几行以了解我们的功能df.head()检查单变量正态性# 选择连续特征的子集进行正态性检查features = ['固定酸度', '挥发酸度', '柠檬酸', 'pH', '酒精']# 运行正态性检验Normality_results = pg.normality(df[特征])打印(正态性结果)输出:检查多元正态性检查同方差性结果:
