如何与你的机器人最好的朋友一起用统计数据撒谎

什么是 p 黑客攻击,它很糟糕吗?你能让人工智能为你做这件事吗?这篇文章《如何与你的机器人最好的朋友一起用统计数据撒谎》首先出现在《走向数据科学》上。

来源:走向数据科学

传统的统计分析通常被比作导航“岔路花园”(Gelman 和 Loken)。这个术语有助于(希望)可视化研究人员在实验过程中必须做出的无数分析选择,以及看似微不足道的“转变”(例如要控制哪些变量,要删除哪些异常值......)如何让研究人员最终得出完全不同的结论。

虽然这似乎是一个无害的类比,但在这个花园中导航以找到通往您想要的地方的单一路径可以称为“p-hacking”。形式上,我们可以将其定义为研究人员用于使先前不显着的假设检验显着(通常低于 0.05)的任何度量。更通俗地说,我相信每个人都有过在高中化学或物理课上伪造实验作业结果的经历——虽然高中作业取得满意成绩的风险相当低,但在正规学术界“出版或灭亡”的压力下(仅次于西班牙语或在恐吓中消失),p-hack的压力可能是你肩上一个非常诱人的魔鬼。

虽然传统的形象是,压力很大的博士生在凌晨 3:00 在研究电子表格上捏造一些数字,这可能更能体现一个人进行 p-hacking 的动机,但我们还将探索当我们离开这个充满人工智能的岔路花园时会发生什么。随着人工智能工作流程进入学术界和工业界的每一个角落,重要的是要弄清楚我们友好的邻居法学硕士是否会充当科学诚信的最终守护者,或者在工业规模上自动进行欺诈的阿谀奉承者。

1. 人类基线(“大大小小的谎言”)

1.1 幽灵变量

1.2 数据查看/可选停止

1.3 异常值排除

1.4 尺度重新定义

2.人工智能的阿谀奉承与安全错觉

2.1 说谎的微妙艺术

2.2 并非所有数据都是平等的

参考文献