详细内容或原文请订阅后点击阅览
掌握粗略数学将使您成为更好的数据科学家
一个快速而粗略的答案往往比一个花哨的模型更有帮助作者图片(改编自 Midjourney)1945 年 7 月 16 日,在洛斯阿拉莫斯进行的第一次核弹试验中,物理学家 Enrico Fermi 扔下了一些小纸片,并观察了当冲击波到达他身边时它们移动了多远。据此,他估算出了炸弹当量的大致大小。没有花哨的设备或严格的测量;只有一些方向数据和逻辑推理。爆炸发生后大约 40 秒,空气冲击波到达了我身边。我试图通过在冲击波通过之前、期间和之后从大约六英尺高的地方扔下小纸片来估计其强度。[…] 我估计这相当于当时一千吨 T.N.T 产生的爆炸。— Enrico Fermi 考虑到这个估计是如何产生的,它竟然如此准确。我们不得不一直做快速而粗略的近似。有时我们没有进行严格分析所需的数据,有时我们只是没有时间给出答案。不幸的是,估算对我来说并不自然。作为一个正在康复的完美主义者,我希望我的分析尽可能可靠。如果我错了,我采取了草率的方法,那不是会让我看起来粗心或无能吗?但随着时间的推移,我意识到让模型变得越来越复杂很少会带来更好的决策。为什么?大多数决策不需要超精确的分析;在正确的范围内是
来源:走向数据科学第2部分:如何创建“足够准确”的估计值
您知道您需要变得多么准确 - 很棒。但是您如何实际创建估计?
您可以遵循以下步骤,以使您的估计尽可能稳定,同时最大程度地减少您花在上面的时间:
步骤1:建立结构
假设您在Netflix工作,并想弄清楚从将游戏添加到平台上可以赚多少钱(如果您通过广告获利)。
您如何构建估计?
第一步是将指标分解为驱动器树,第二步是分段。
将度量分解为驱动器树, 段。开发驱动器树
在驾驶员树的顶部,您有“每天的游戏收入”。但是,如何进一步打破驱动器树呢?
每天的游戏收入有两个关键因素:
1。选择指标,您可以找到数据。
例如,游戏行业使用标准化的指标来报告货币化,如果您偏离它们,则可能难以找到基准(以下基准的更多)。
2。选择最小化混杂因素的指标。
例如,您可以将收入分解为“用户#”和“每个用户的平均收入”。问题在于,这并不考虑用户在游戏中花费多少时间。
用户 每个用户的平均收入为了解决这个问题,我们可以将收入分为“玩的小时”,而“每小时播放的$每小时播放”;这样可以确保您的游戏和“传统”游戏之间的参与度差异不会影响结果。
玩的小时 每小时播放然后您可以进一步分解每个指标,例如:
- “每小时$每小时”可以计算为“每小时#广告印象”次“每次广告印象”“播放的小时”“每天活跃的用户(dau)”和“每小时dau小时”