详细内容或原文请订阅后点击阅览
FAANG 访谈中最常见的统计陷阱
FAANG 访谈中的五个关键统计陷阱,测试您质疑数据、发现偏见和批判性思考的能力
来源:KDnuggets简介
在 Meta(以前称为 Facebook)、Apple、Amazon、Netflix 或 Alphabet (Google)(统称为 FAANG)申请工作时,面试很少测试您是否可以背诵教科书定义。相反,面试官希望了解您是否批判性地分析数据,以及您是否会在将其投入生产之前识别出错误的分析。统计陷阱是测试这一点的最可靠方法之一。
这些陷阱复制了分析师每天面临的各种决策:看起来不错但实际上具有误导性的仪表板数字,或者看似可行但包含结构性缺陷的实验结果。面试官已经知道答案了。他们关注的是你的思维过程,包括你是否提出了正确的问题、是否注意到缺失的信息以及是否拒绝了乍一看不错的数字。候选人会反复陷入这些陷阱,即使是那些拥有深厚数学背景的人也是如此。
我们将研究五个最常见的陷阱。
理解辛普森悖论
这个陷阱的目的是抓住那些毫无疑问地相信汇总数字的人。
当趋势出现在不同组的数据中,但在组合这些组时消失或逆转时,就会发生辛普森悖论。典型的例子是加州大学伯克利分校1973年的录取数据:整体录取率偏向男性,但按院系细分时,女性的录取率持平或更高。这个总数具有误导性,因为女性申请的是竞争更激烈的部门。
当团体规模不同、基本费率不同时,悖论就不可避免。理解这一点可以将表面的答案与深层的答案区分开来。
面试官用它来检查你是否本能地询问子组分布。如果你只报告总数,你就会失去分数。
使用 A/B 测试数据进行演示
在下面使用 Pandas 的演示中,我们可以看到总费率如何具有误导性。
输出:
