详细内容或原文请订阅后点击阅览
减少对数据科学项目的价值的时间:第3部分
设置强大的实验过程,降低了为数据科学项目价值的时间:第3部分首先出现在数据科学方面。
来源:走向数据科学本系列的第1部分和第2部分着重于改进实验过程的技术方面。这始于重新思考如何创建,存储和使用代码,并以大规模并行化来减少运行实验所花费的时间。本文从实施细节中退后一步,而是更广泛地研究了我们如何 /为什么实验,以及如何通过更明智地进行实验来减少项目价值的价值时间。
1 2未能计划的是计划失败
作为数据科学家,从新项目开始通常是一个非常令人兴奋的时刻。与以前的项目相比,您面临着具有不同要求的新数据集,并且可能有可能尝试以前从未使用过的新型建模技术。直接从EDA开始,可能是一些初步建模,这是非常诱人的。您对建立可以为企业提供结果的模型的前景感到充满活力和乐观。
尽管热情值得称赞,但情况可能会迅速改变。想象一下,现在几个月已经过去了,您在以前运行100次后仍在进行实验,试图调整超参数以获得额外的1-2%的模型性能。您的最终模型配置已变成了一个复杂的互连集合,使用4-5个基本模型,所有这些模型都需要训练和监视。最后,在所有这些之后,您发现您的模型几乎无法改善当前的过程。
如果采用更结构化的实验方法,则可以避免所有这些。您是一名数据科学家,重点是科学家,因此知道如何进行实验至关重要。在本文中,我想为如何有效地构建项目实验的方式提供一些指导,以确保您专注于为业务提供解决方案的重要性。