减少对数据科学项目的价值的时间:第2部分

利用自动化和并行性来扩展实验,缩短了对数据科学项目的价值的时间:第2部分首先出现在数据科学方面。

来源:走向数据科学

在本系列的第1部分中,我们谈到了创建可以在多个项目中部署的可重复使用的代码资产。利用共同数据科学步骤的集中式存储库确保可以更快地进行实验,并对结果更有信心。简化的实验阶段对于确保您尽快为业务提供价值至关重要。

第1部分

在本文中,我想关注如何提高可以实验的速度。您可能需要尝试尝试尝试的不同设置的10秒钟想法,并且有效地进行它们将大大提高您的生产率。当模型性能衰减并探索新功能时,进行完整的重新训练只是在某些情况下能够快速迭代实验的情况,这将成为一个很棒的福音。

我们需要谈论笔记本(再次)

虽然jupyter笔记本是一种教会自己的图书馆和概念的好方法,但它们很容易被滥用,并成为拐杖,积极地站立了快速模型开发的方式。考虑数据科学家进入新项目的情况。第一步通常是打开新笔记本并开始一些探索性数据分析。了解您可以使用哪种数据,执行一些简单的摘要统计信息,了解您的结果,最后一些简单的可视化,以了解功能与结果之间的关系。这些步骤是有用的努力,因为在开始实验过程之前,更好地了解数据至关重要。

链接笔记本在一起是一个效率低下的过程。作者的图像

拥抱脚本以创建您的实验管道

python src/main.py

python src/main_with_arguments.py --input_data -oinput_loc

用单独的文件配置实验

  • 顶级布尔标志以打开和关闭管道的不同部分
  • 自动化 st rd

    结论