详细内容或原文请订阅后点击阅览
从泰坦尼克号数据集中探索生存模式
使用 Pandas、Matplolib 和 Seaborn 进行探索性数据分析的初学者教程《从泰坦尼克号数据集中探索生存模式》一文首先出现在《走向数据科学》上。
来源:走向数据科学简介
泰坦尼克号沉船事故是一个重大历史事件,它塑造了我们如何看待灾难期间人类的生存。即使一个世纪过去了,这一悲惨事件仍然提供了宝贵的见解和教训。
泰坦尼克号是当时最大、最豪华的船舶之一。它被自豪的制造者昵称为“永不沉没”。 1912年4月10日,它开始了从英国到纽约的首次旅程。泰坦尼克号带走了所有阶层的人,无论富人还是穷人。它由高级上尉爱德华·约翰·史密斯指挥。在航行过程中,泰坦尼克号多次收到大西洋结冰警告,导致其两次改变航线。但在航行的第四天,即4月14日,它与一座巨大的冰山相撞,导致这艘豪华游轮开始缓慢下沉。这艘船向附近的其他船只发送无线电信号寻求帮助,但只有一艘做出回应。机长命令乘客疏散。根据协议,妇女和儿童将首先使用船上可用的救生艇撤离。但正如我们将在探索中看到的那样,它并没有真正发生。某些其他因素也在决定机上乘客的生存方面发挥了作用。似乎某些群体比其他群体更有可能生存下来,这就是我们将在本文中探讨的内容。
这艘“不沉”船的沉没导致船上 2224 名乘客和船员中的 1502 人死亡。
项目
Titanic 数据集是一个非常适合初学者的数据集,这就是为什么它被广泛用作数据科学学习起点的原因。它不仅为数据分析提供了有趣的模式,而且在危机条件下将历史背景与真实的人类决策相结合保留了其价值。
数据集
您可以从 :Github 链接获取数据集
加载数据集
pip 安装 pandas
将 pandas 导入为 pd
打印(df.head())
打印(df.iloc[0])
