FAANG 访谈中最常见的统计陷阱

FAANG 访谈中的五个关键统计陷阱,测试您质疑数据、发现偏见和批判性思考的能力

来源:KDnuggets

简介

在 Meta(以前称为 Facebook)、Apple、Amazon、Netflix 或 Alphabet (Google)(统称为 FAANG)申请工作时,面试很少测试您是否可以背诵教科书定义。相反,面试官希望了解您是否批判性地分析数据,以及您是否会在将其投入生产之前识别出错误的分析。统计陷阱是测试这一点的最可靠方法之一。

这些陷阱复制了分析师每天面临的各种决策:看起来不错但实际上具有误导性的仪表板数字,或者看似可行但包含结构性缺陷的实验结果。面试官已经知道答案了。他们关注的是你的思维过程,包括你是否提出了正确的问题、是否注意到缺失的信息以及是否拒绝了乍一看不错的数字。候选人会反复陷入这些陷阱,即使是那些拥有深厚数学背景的人也是如此。

我们将研究五个最常见的陷阱。

理解辛普森悖论

这个陷阱的目的是抓住那些毫无疑问地相信汇总数字的人。

当趋势出现在不同组的数据中,但在组合这些组时消失或逆转时,就会发生辛普森悖论。典型的例子是加州大学伯克利分校1973年的录取数据:整体录取率偏向男性,但按院系细分时,女性的录取率持平或更高。这个总数具有误导性,因为女性申请的是竞争更激烈的部门。

当团体规模不同、基本费率不同时,悖论就不可避免。理解这一点可以将表面的答案与深层的答案区分开来。

面试官用它来检查你是否本能地询问子组分布。如果你只报告总数,你就会失去分数。

使用 A/B 测试数据进行演示

在下面使用 Pandas 的演示中,我们可以看到总费率如何具有误导性。

输出:

识别选择偏差