详细内容或原文请订阅后点击阅览
与 Marco Hening Tallarico 一起弥合研究与可读性之间的差距
稀释复杂的研究,发现无声的数据泄露,以及为什么最好的学习方式往往是倒退的。Marco Hening Tallarico 的文章《弥合研究与可读性之间的差距》首先出现在《走向数据科学》上。
来源:走向数据科学在作者聚焦系列中,TDS 编辑与我们社区的成员讨论了他们在数据科学和人工智能方面的职业道路、他们的写作以及他们的灵感来源。今天,我们很高兴与 Marco Hening Tallarico 分享我们的对话。
Marco 是多伦多大学的研究生,也是 Risklab 的研究员,对应用统计学和机器学习有着浓厚的兴趣。马可出生于巴西,在加拿大长大,他欣赏数学这一通用语言。
是什么促使您采用密集的学术概念(例如随机微分方程)并将其转变为更广泛的 TDS 社区易于理解的教程?
想要按照自然顺序学习一切是很自然的。代数、微积分、统计学等等。但如果你想取得快速进步,你就必须放弃这种倾向。当你试图解决一个迷宫时,在中间选择一个地方就是作弊,但在学习中,没有规则。如果你愿意,可以从最后开始,然后按原路返回。它使它不那么乏味。
您的数据科学挑战文章重点关注发现代码中的数据泄漏,而不仅仅是理论。根据您的经验,哪种无声泄漏是最常见的,并且至今仍然存在于生产系统中?
在数据分析过程中或使用聚合作为模型的输入时,很容易出现数据泄漏。特别是现在可以相对容易地实时计算聚合。在绘图之前,甚至在运行 .head() 函数之前,我认为将训练测试分开很重要。想想应该如何划分,从用户级别、规模、时间顺序到分层划分:你可以做出很多选择,而且值得花时间。
您提到仅从数据中学习语法的计算成本很高。您是否认为混合模型(统计+形式)是长期实现可持续人工智能扩展的唯一方法?
