详细内容或原文请订阅后点击阅览
Python 生存分析指南:使用事件时间模型预测客户生命周期
通过 Kaplan-Meier 曲线和 Cox 比例风险回归对客户保留进行建模来理解生存分析。Python 生存分析指南:使用事件时间模型预测客户生命周期一文首先出现在 Towards Data Science 上。
来源:走向数据科学涉及许多知识领域,帮助我们处理不确定性、计算概率并支持决策。
医疗行业是严重依赖统计的领域之一,使用 T 检验、A/B 检验或生存分析等工具。最后一个是本文的主题。
生存分析起源于医学和生物科学,他们试图将患者或有机体的死亡作为主要事件进行建模。这就是这个名字的原因。
然而,统计学家认识到这种分析是如此强大,可以应用于生活的许多其他领域,因此它传播到了商业领域,在数据科学兴起后更是如此。
让我们了解更多信息。
生存分析
生存分析 [SA] 是统计的一个分支,用于预测特定事件发生所需的时间。[1]
也称为事件发生时间,这项研究可以确定某件事发生需要多长时间,同时考虑到收集数据时某些事件尚未发生的事实。
这些例子不仅存在于医学和生物科学领域,而且无处不在。
现在,考虑到我们正在尝试估计一个数字,而不是一个组或类,这意味着我们正在处理一种回归问题。那么为什么我们不能使用 OLS 线性回归呢?
为什么使用生存分析?
像 OLS 或逻辑回归这样的标准回归模型很难处理生存数据,因为它们旨在处理已完成的事件,而不是“正在进行的”故事。
假设您想要预测谁完成了 10 英里比赛,但输入数据是仍在进行的事件。比赛持续 2 小时,您想要使用目前掌握的数据来估计一些内容。
常规回归算法将失败,因为:
生存分析的基础知识
首先,我们必须了解数据点的诞生和消亡。
