详细内容或原文请订阅后点击阅览
比较 Pandas 和 (%%SQL) 在 Python 中的数据分析
利用 SQL 和 Pandas 从糖尿病患者记录中提取见解继续阅读 Towards Data Science »
来源:走向数据科学比较python中的熊猫和(%% sql)
利用sql和pandas从糖尿病患者记录中提取见解
Stone Wang Unplash 我们将使用一个数据集,其中包含有关被诊断患有糖尿病或不出现病情的患者的信息。我们的目标是提取该数据的样本,重点是50岁以上的患者。对于此子集中的每个人,我们需要添加一个新的列,以指定患者是否被归类为正常,体重指数(BMI)低于30或肥胖,BMI为30或更高。 数据集 样本 正常 体重指数(BMI) 肥胖 数据被操纵后,它将导出到新的CSV文件,并转发给负责进一步分析的数据科学家。 CSV文件 数据科学家 要解决此任务,我们将使用数据库,Python和SQL。最初,将使用Python导入数据。然后,我们将在数据库中创建此数据的副本,在其中我们将使用SQL查询执行必要的转换。 数据库 python sql replica 完成了所需的更改和添加后,数据将被传输回PANDAS DataFrame,最后,我们将以CSV格式保存所得的数据集。 pandas dataframe CSV格式 我们将使用PIMA印第安人糖尿病数据库,可在此处下载的公开数据集: 皮马印第安人糖尿病数据库 Stone WangUnplash
我们将使用一个数据集,其中包含有关被诊断患有糖尿病或不出现病情的患者的信息。我们的目标是提取该数据的样本,重点是50岁以上的患者。对于此子集中的每个人,我们需要添加一个新的列,以指定患者是否被归类为正常,体重指数(BMI)低于30或肥胖,BMI为30或更高。 数据集 样本 正常 体重指数(BMI)肥胖
数据被操纵后,它将导出到新的CSV文件,并转发给负责进一步分析的数据科学家。 CSV文件 数据科学家 要解决此任务,我们将使用数据库,Python和SQL。最初,将使用Python导入数据。然后,我们将在数据库中创建此数据的副本,在其中我们将使用SQL查询执行必要的转换。 数据库 python sql replica 完成了所需的更改和添加后,数据将被传输回PANDAS DataFrame,最后,我们将以CSV格式保存所得的数据集。 pandas dataframe CSV格式 我们将使用PIMA印第安人糖尿病数据库,可在此处下载的公开数据集: 皮马印第安人糖尿病数据库CSV文件
数据科学家 要解决此任务,我们将使用数据库,Python和SQL。最初,将使用Python导入数据。然后,我们将在数据库中创建此数据的副本,在其中我们将使用SQL查询执行必要的转换。 数据库 pythonsql
replica
完成了所需的更改和添加后,数据将被传输回PANDAS DataFrame,最后,我们将以CSV格式保存所得的数据集。
pandas dataframe
CSV格式我们将使用PIMA印第安人糖尿病数据库,可在此处下载的公开数据集:皮马印第安人糖尿病数据库