使用 Python Pandas、Matplotlib 和 Seaborn 探索收入模式

对美国人口普查数据集的探索性数据分析 使用 Python Pandas、Matplotlib 和 Seaborn 探索收入模式一文首先出现在 Towards Data Science 上。

来源:走向数据科学

收入和收入,我们倾向于将成功归功于努力工作和智慧。其他时候,我们只是假设某些人很幸运,尽管他们的教育水平不达标或缺乏专业知识,但他们能够在自己的职业中取得成功并获得舒适的收入。然而,事实介于这两个极端之间。是的,有些人确实很幸运,年轻时就成为百万富翁,但我们也看到人们努力攀登职业阶梯,并在需要提升专业水平的地方付出努力,从而增加收入。

在本文中,我们将使用 Python 来探索收入与不同因素(即年龄、性别、职业、教育水平等)的关系。尽管在当今时代,绘制图表并得出见解,但我们知道如何通过将人类分析与计算能力相结合从原始数据中提取见解非常重要。 这需要一定的 Python 基础知识。通过使用 Python 及其强大的数据处理库,我们将识别一些可预测的模式,这些模式将帮助我们根据我们将使用的数据集深入了解一般影响收入的因素!

项目

在这个项目中,我们将借助 Python 深入研究人口普查数据集,并使用其一些强大的数据分析库(如 pandas、matplotlib 和 seaborn)来揭示收入模式。借助数据清理工具、数据可视化和探索性分析,我们将把这些原始数据转化为关于哪些因素影响收入以及影响程度的有价值的见解。这是一个初级到中级的 Python 编程项目,希望您了解基本的 Python 基础知识,特别是如何导入和使用不同库中的函数进行数据探索和分析。

数据集

数据集:成人人口普查收入数据集

来源:UCI 机器学习存储库 (CC BY 4.0)

现在,让我们开始吧!

打印(df.shape)
打印(df.info())