柏拉图的洞穴和数据阴影

关于真理,幻觉以及数据可以在柏拉图的洞穴之后复制的数据和数据阴影首先出现在数据科学方面。

来源:走向数据科学

我的舒适区和尝试我以前从未使用过的风格。这篇文章将是散文和隐喻性的,相对较短的,借鉴了古代哲学,以反思现代数据科学。

我希望它能招待您,并在此过程中引发一些反思。

在柏拉图共和国,囚犯坐在山洞里。他们身后有火燃烧,在他们面前的墙壁上闪烁。这些阴影都是囚犯所见过的。他们将它们误认为现实本身,并不意识到洞穴之外是真正的世界,充满了光明和实质。

共和国

与数据合作有何不同?通常感觉就像住在那个洞穴里。我们的数据集是阴影 - 更深,更丰富的现实的项目。行和数字列捕获了生命的片段:购买,医疗记录,单击网站,足球活动……但是这些观点背后的生活经验(动机,上下文,不确定性)在我们的视线之外揭示了。

作为洞穴内的囚犯,很容易将阴影视为事物本身。他们和我们之间的区别在于,我们有能力(和义务)意识到它们是阴影的事实,并且不一定会表现出真相。

搅动模型预测谁将离开平台。医学算法估计风险。预期目标模型用于确定每个评分机会的质量。所有这些都是有用的。但是它们都不是现实。它们是阴影 - 局部,扭曲和不完整。

问题不是存在阴影,而是我们忘记它们是阴影。

当我们忘记这一点时,真正的危险就会出现。当我们将模型与真相或错误的理解预测混淆时,我们有可能将阴影变成教条。正如柏拉图洞穴中的囚犯相信这堵墙讲述了整个故事一样,我们的结果和指标也可能使我们蒙蔽。

我们控制着我们如何解释它们,如何传达它们的局限性以及如何使用它们来负责任地指导决策。