详细内容或原文请订阅后点击阅览
5 个适合初学者的有趣数据科学项目
这些适合初学者的项目将指导您完成完整的数据科学工作流程,以便您可以通过构建和实验来学习。
来源:KDnuggets# 简介
#数据科学经常与机器学习相混淆,但实际上远不止于此。它是关于收集、清理、分析和可视化数据,以找到可以帮助我们做出决策的有用模式。机器学习只是这个更大的图景的一小部分。我开始这个有趣的项目系列是为了鼓励实践学习,因为老实说,你不会通过观看无尽的理论来学习数据科学。你可以通过构建来学习它。
在本文中,我选择了五个项目,涵盖典型数据科学工作流程的不同阶段,从基本数据清理到探索数据、构建模型,甚至部署它们以供实际使用。
# 1.您需要的唯一数据清理框架
该视频由数据分析师 Christine Jiang 制作,她分享了一种非常实用的数据清理方法,我认为任何从事项目的人都会发现这种方法很有用。在清理数据时,我们经常会想“多干净才算足够干净”,Christine 使用她的五步 CLEAN 框架展示了一种清晰的方法来处理这个问题。她介绍了如何找到可解决和不可解决的问题、标准化值、记录所有内容以及迭代以使数据可靠而不以“完美”为目标。她使用的示例,例如修复缺失的国家代码或不一致的产品描述,非常具有相关性,她强调的心态与工具同样重要。我发现对于任何试图有效处理现实世界数据的人来说,这都是一本超级实用的指南。
该视频