数据科学作为工程:基础、教育和职业认同

将数据科学视为一种工程实践,并相应地构建教育。《数据科学作为工程:基础、教育和职业身份》一文首先出现在《走向数据科学》上。

来源:走向数据科学

遇到了身份危机。

这场危机的迹象已经存在多年。 例如,《哈佛数据科学评论》的创刊号发现,定义数据科学不是什么比定义数据科学是什么更容易(Meng,2019)。这种混乱尚未消除。事实上,可以说情况变得更糟了。正如孟多年前(2019)指出的那样,我们大多数人都对其他类型的科学家有所了解。但什么是数据科学家?他们到底做什么?

数据科学的历史深深植根于统计学。早在 1962 年,20 世纪最有影响力的统计学家之一约翰·图基 (John Tukey) 就呼吁承认一门专注于从数据中学习的新科学。统计界的后续工作,特别是 Jeff Wu(Donoho,2015)和 William Cleveland(2001),正式提出了“数据科学”的名称,并建议学术统计学扩大其边界(Donoho,2015)。然而,在接下来的几年里,计算机科学产生了重大影响,人们呼吁将数据科学视为一门不同于统计学的独特学科,并从根本上承认数据科学是一门科学。

统计学的概率和推理传统的扩展,以及计算机科学的算法、编程和系统设计问题,导致了数据科学作为跨学科领域的现代观点,Blei 和 Smyth (2017) 亲切地将其称为“统计学和计算机科学的孩子”。 Wing 及其同事(2018)认为,数据科学的定义特征不仅涉及方法,还涉及在领域背景下使用这些方法。领域和方法之间的相互作用使得数据科学不仅仅是各个部分的总和,而是一个有自己的重点的独特领域。

工程视角

数据科学从根本上来说就是构建能够在混乱的现实环境中工作的东西。与其他工程学科一样,它涉及:

致谢