离散事件时间建模 - 预测某事何时发生

第 1 部分:基础知识 — 时间离散化、审查和生命表离散时间事件建模 — 预测某事何时发生的帖子首先出现在《走向数据科学》上。

来源:走向数据科学

简介

数据科学问题预测什么——例如,房子会卖多少钱?或者客户会购买什么?或者说病人患病的概率是多少?

然而,许多现实世界的决策同样取决于事情发生的时间。客户流失需要多长时间?贷款什么时候会违约?组件发生故障之前还剩多少时间?

预测某事何时发生是一个预测建模用例,在介绍性材料中并没有引起太多关注。预测“时间”通常称为事件时间建模或生存分析。

虽然事件建模与更传统的预测建模共享技术和直觉,但它也引入了创建有效预测必须适应的细微差别。

这是一个多部分系列的开始,该系列将涵盖事件时间建模的基础知识。 第一部分将讨论基本概念,而未来的文章将涵盖事件发生时间模型开发技术。

以下是我将在本文中讨论的三个主题:

  • 将事件放入离散时间
  • 事件数据审查
  • 生命表
  • 离散化时间

    虽然时间本质上是连续的,但根据事件时间建模用例,将时间视为连续或离散可能是合适的。在本文中,我们将重点讨论离散时间,但我确实想花一点时间讨论离散时间与连续时间处理的决定。

    何时将时间视为连续的指南

    在以下情况下,时间通常最好被视为连续:

  • 该事件可以在任何时间点发生,并且本质上是连续的(我们将在下一节中将其与不太直观、本质上离散的事件进行对比)。设备故障是一个常见的例子。
  • 事件发生的时间可以精确测量。很难测量失业者找到工作的确切时间,但现代车辆传感器可以捕捉车祸的确切时间。
  • 何时将时间视为离散的指南

    审查