掌握粗略数学将使您成为更好的数据科学家

一个快速而粗略的答案往往比一个花哨的模型更有帮助作者图片(改编自 Midjourney)1945 年 7 月 16 日,在洛斯阿拉莫斯进行的第一次核弹试验中,物理学家 Enrico Fermi 扔下了一些小纸片,并观察了当冲击波到达他身边时它们移动了多远。据此,他估算出了炸弹当量的大致大小。没有花哨的设备或严格的测量;只有一些方向数据和逻辑推理。爆炸发生后大约 40 秒,空气冲击波到达了我身边。我试图通过在冲击波通过之前、期间和之后从大约六英尺高的地方扔下小纸片来估计其强度。[…] 我估计这相当于当时一千吨 T.N.T 产生的爆炸。— Enrico Fermi 考虑到这个估计是如何产生的,它竟然如此准确。我们不得不一直做快速而粗略的近似。有时我们没有进行严格分析所需的数据,有时我们只是没有时间给出答案。不幸的是,估算对我来说并不自然。作为一个正在康复的完美主义者,我希望我的分析尽可能可靠。如果我错了,我采取了草率的方法,那不是会让我看起来粗心或无能吗?但随着时间的推移,我意识到让模型变得越来越复杂很少会带来更好的决策。为什么?大多数决策不需要超精确的分析;在正确的范围内是

来源:走向数据科学

第2部分:如何创建“足够准确”的估计值

您知道您需要变得多么准确 - 很棒。但是您如何实际创建估计?

您可以遵循以下步骤,以使您的估计尽可能稳定,同时最大程度地减少您花在上面的时间:

步骤1:建立结构

假设您在Netflix工作,并想弄清楚从将游戏添加到平台上可以赚多少钱(如果您通过广告获利)。

您如何构建估计?

第一步是将指标分解为驱动器树,第二步是分段。

将度量分解为驱动器树, 段。

开发驱动器树

在驾驶员树的顶部,您有“每天的游戏收入”。但是,如何进一步打破驱动器树呢?

每天的游戏收入

有两个关键因素:

1。选择指标,您可以找到数据。

例如,游戏行业使用标准化的指标来报告货币化,如果您偏离它们,则可能难以找到基准(以下基准的更多)。

2。选择最小化混杂因素的指标。

例如,您可以将收入分解为“用户#”和“每个用户的平均收入”。问题在于,这并不考虑用户在游戏中花费多少时间。

用户 每个用户的平均收入

为了解决这个问题,我们可以将收入分为“玩的小时”,而“每小时播放的$每小时播放”;这样可以确保您的游戏和“传统”游戏之间的参与度差异不会影响结果。

玩的小时 每小时播放

然后您可以进一步分解每个指标,例如:

    “每小时$每小时”可以计算为“每小时#广告印象”次“每次广告印象”“播放的小时”“每天活跃的用户(dau)”和“每小时dau小时”
  • “每小时$每小时播放”可以计算为“#广告印象每小时”次“每次广告印象$”
  • #每小时广告印象 $每广告印象 每日活跃用户(DAU)” “每小时dau” 但是

    分割

  • 地理
  • 非常 如果 can