详细内容或原文请订阅后点击阅览
更多的对话,少一些动作 - 反对过早数据集成的情况
在开始ML零件之前运行大型数据集成项目很容易成为一个坏主意,因为您在不知道其使用的情况下集成了数据。在某些未来的ML用例中,数据适合目的的机会很小,最好的这篇文章表明,让人们一起交谈有助于避免ML项目中的早产数据集成的陷阱,优化货币价值。帖子更多的对话,较少的对话,较少的行动 - 反对过早数据集成的案例首先是针对数据科学的。
来源:走向数据科学我与尚未从数据科学(DS)和机器学习(ML)开始的[大型]组织进行了交谈,他们经常告诉我,他们必须首先运行一个数据集成项目,因为“……所有数据都散布在整个组织中,隐藏在孤岛中,并以不同部门运行的奇异服务器的奇数形式包装。”
机器学习 他们必须 运行数据集成项目 第一个虽然很难获取数据,但在开始ML零件之前运行一个大型数据集成项目很容易成为一个坏主意。这是因为您在不知道数据的情况下集成了数据 - 在某些将来的ML用例中,数据适合目的的机会充其量很小。
在本文中,我讨论了此类集成项目的一些最重要的驱动因素和陷阱,而是提出了一种侧重于在整合工作中优化货币价值的方法。挑战的简短答案是[扰流板警报…]以每用用式使用案例的基础进行集成数据,从用例向后工作以准确识别所需的数据。
建议 一种侧重于优化价值的方法对清洁和整洁数据的渴望
在开始进行数据科学和机器学习挑战之前,很容易理解进行数据集成的冲动。下面,我列出了我经常遇到的四个驾驶员。列表并不详尽,但涵盖了我所看到的最重要的动机。然后,我们将浏览每个驾驶员,讨论他们的优点,陷阱和替代方案。