Python 生存分析指南:使用事件时间模型预测客户生命周期

通过 Kaplan-Meier 曲线和 Cox 比例风险回归对客户保留进行建模来理解生存分析。Python 生存分析指南:使用事件时间模型预测客户生命周期一文首先出现在 Towards Data Science 上。

来源:走向数据科学

涉及许多知识领域,帮助我们处理不确定性、计算概率并支持决策。

医疗行业是严重依赖统计的领域之一,使用 T 检验、A/B 检验或生存分析等工具。最后一个是本文的主题。

生存分析起源于医学和生物科学,他们试图将患者或有机体的死亡作为主要事件进行建模。这就是这个名字的原因。

然而,统计学家认识到这种分析是如此强大,可以应用于生活的许多其他领域,因此它传播到了商业领域,在数据科学兴起后更是如此。

让我们了解更多信息。

生存分析

生存分析 [SA] 是统计的一个分支,用于预测特定事件发生所需的时间。[1]

也称为事件发生时间,这项研究可以确定某件事发生需要多长时间,同时考虑到收集数据时某些事件尚未发生的事实。

这些例子不仅存在于医学和生物科学领域,而且无处不在。

  • 机器出现故障之前的时间
  • 客户取消订阅之前的时间
  • 客户再次购买的时间
  • 现在,考虑到我们正在尝试估计一个数字,而不是一个组或类,这意味着我们正在处理一种回归问题。那么为什么我们不能使用 OLS 线性回归呢?

    为什么使用生存分析?

    像 OLS 或逻辑回归这样的标准回归模型很难处理生存数据,因为它们旨在处理已完成的事件,而不是“正在进行的”故事。

    假设您想要预测谁完成了 10 英里比赛,但输入数据是仍在进行的事件。比赛持续 2 小时,您想要使用目前掌握的数据来估计一些内容。

    常规回归算法将失败,因为:

    生存分析的基础知识

    首先,我们必须了解数据点的诞生和消亡。

    代码