欺骗性数据的危险第2部分基本比例和不良统计

可访问的相关性,基本比例,摘要统计数据和不确定性。

来源:走向数据科学

- 对我之前的文章:欺骗性数据的危险 - 构成图表和误导性头条。我的第一篇文章集中于如何使用可视化来误导误导,研究广泛用于公共事务的数据表现形式。

欺骗性数据的危险 - 形成图表和误导性头条 可视化

在本文中,我更深入地研究了对统计思想的误解是如何被数据欺骗的。具体来说,我将介绍相关性,基本比例,摘要统计数据以及对不确定性的误解会导致人们误入歧途。

让我们加入它。

相关≠因果

让我们从经典开始,以了解一些更复杂的想法。从小学最早的统计课来看,我们都被告知相关性不等于因果关系。

如果您进行了一些谷歌搜索或阅读,则可以找到“统计数据”,这些“统计数据”显示出香烟消费和平均预期寿命之间存在很高的相关性[1]。有趣的。好吧,这是否意味着我们都应该开始吸烟以寿命更长?

当然不是。我们错过了一个混杂因素:购买香烟需要钱,而拥有较高财富的国家可以理解地有更高的预期寿命。香烟与年龄之间没有因果关系。我喜欢这个示例,因为它是如此公然地误导,并很好地强调了这一点。通常,重要的是要注意仅显示相关链接的任何数据。

从科学的角度来看,可以通过观察确定相关性,但是声称因果关系的唯一方法是实际进行控制潜在混杂因素的随机试验,这是一个相当涉及的过程。

我选择从这里开始,因为在介绍时,这个概念还强调了一个关键思想,即有效理解数据的基础:数据仅显示显示的内容,而没有其他内容。

数据仅显示显示的内容,而没有其他内容。

记住基本比例

X-Mean y-sd