清理脏数据是机器学习中的一大问题

当您想象机器学习算法研究员的生活时,您可能会认为这是一个非常迷人的职业。毕竟,您可以对自动驾驶汽车进行编程,与著名的技术专家一起工作,您的软件甚至可能给人类带来灾难。非常酷!?

来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)

当您想象机器学习算法研究员的生活时,您可能会认为这是一个非常迷人的职业。毕竟,您可以对自动驾驶汽车进行编程,与著名的技术专家一起工作,您的软件甚至可能给人类带来灾难。非常酷!?

但是,一项针对数据科学和机器学习研究人员的新调查显示,这种期望与现实相去甚远,因为这些行业最大的问题是对脏数据的例行清理。

根据 Kaggle 研究社区(今年早些时候被 Google 收购)进行的一项调查,在 130 万社区成员中,约有 16,700 名受访者最常将“脏数据”视为工作的最大障碍之一,其次是由于缺乏这方面的知识。

但是什么是脏数据以及为什么会出现这样的问题呢?如今,每个人都知道数据是数字经济的燃料,在机器学习等领域尤其如此。

现代人工智能系统倾向于通过示例来学习,因此如果你向它们展示大量猫的照片,随着时间的推移,人工智能将开始识别它们的基本特征。谷歌和亚马逊等公司之所以能够创建如此强大的图像和语音识别平台,是因为它们拥有大量来自用户的数据。

但人工智能系统仍然只是计算机程序,如果你在错误的时间按了错误的按钮,它们就会像顽皮的孩子一样行事。因此,人们必须监控数十万条记录的数据集,跟踪缺失值并删除任何格式错误。