详细内容或原文请订阅后点击阅览
您的流失阈值是定价决策
单位经济学应该如何设置你的分类截止值,以及为什么他们很少这样做。你的流失阈值是一个定价决策一文首先出现在走向数据科学上。
来源:走向数据科学表示“该客户离开的概率为 0.4”,而您的代码确实预测 (X) >= 0.5,您刚刚做出了定价决策:您认为向本来会留下来的客户发送保留报价的成本与失去本来会离开的客户的成本完全相等,并且在 IBM Telco 数据集(可以说是 Kaggle 和 GitHub 上回收最多的客户流失数据集)上,该决策的错误率为 13 倍。
我收集了 36 个公开的 IBM 电信客户流失分析(Kaggle 笔记本、GitHub 存储库、博客文章、同行评审论文)的语料库,其报告模式非常引人注目:大约十分之九的报告分类准确性或 F1,超过七分之一的报告报告利润曲线,并且没有人使用生存分析来计算生命周期价值。
结果是一篇文献,其中相同的数据集已被重新建模数百次,并且每个默认阈值模型都会留下金钱:在标准 20% 测试分割中,每个客户的可避免消耗约为 86 美元,并扩展到具有相同流失情况的 100,000 订户书籍,这将意味着 860 万美元的可收回成本; IBM Telco 的流失率(每年 26.5%)异常高,而年度流失率为 5-8% 的更健康的 B2C SaaS 书籍将导致每个客户的数字下降大约 3-4 倍,因此在任何成本敏感的环境中保持不变的不是标题金额,而是不对称 — 错过流失者比过度对待忠诚者要贵 13 倍。
本文按顺序列出了三件事:首先,IBM Telco 文献报道的内容和遗漏的内容;其次,如何使用公开的 2026 年 B2C SaaS 基准和 Kaplan-Meier 生存分析来计算错误分类的美元成本,而无需手动挥手 CAC;第三,当模型在 SMOTE 平衡数据上训练时,为什么教科书上的贝叶斯最优阈值公式会输给暴力扫描,以及如何处理。
本文中的每个数字都可以从末尾链接的脚本中重现。
