产品运行状况评分:我如何通过统一监控和 n8n 自动化将严重事件减少 35%

产品、增长和工程团队如何融合单一信号以实现更好的事件管理产品健康评分:我如何通过统一监控和 n8n 自动化将关键事件减少 35% 的帖子首先出现在 Towards Data Science 上。

来源:走向数据科学

对于 SaaS(软件即服务)公司来说,监控和管理其产品数据至关重要。对于那些不明白这一点的人来说,当他们注意到事件时。损害已经造成。对于陷入困境的公司来说,这可能是致命的。

这可能是致命的

为了防止这种情况发生,我构建了一个链接到他们的数据库的 n8n 工作流程,该工作流程将每天分析数据,发现是否有任何事件。在这种情况下,日志和通知系统将尽快开始调查。我还构建了一个仪表板,以便团队可以实时查看结果。

图片由 Yassin Zehar 提供

上下文

专门从事数据可视化和自动报告的 B2B SaaS 平台为大约 4500 名客户提供服务,分布在三个细分市场:

    小型企业中端市场企业
  • 小型企业
  • 中端市场
  • 企业
  • 每周产品使用量超过 30000 个活跃帐户,对实时数据(管道、API、仪表板、后台作业)有很强的依赖性。

    产品团队与以下人员密切合作:

      增长(获取、激活、入职)收入(定价、ARPU、流失)SRE/基础设施(可靠性、可用性)数据工程(管道、数据新鲜度)支持和客户成功
  • 增长(获取、激活、入职)
  • 收入(定价、ARPU、流失率)
  • SRE/基础设施(可靠性、可用性)
  • 数据工程(管道、数据新鲜度)
  • 支持和客户成功
  • 去年,该公司发现事件数量不断增加。 10月至12月期间,事故总数从250起增加到450起,增加了80%。随着这一增长,有超过 45 起严重事件影响了数千名用户。受影响最大的指标是:

    增加 80%
      api_error_ratecheckout_success_ratenet_mrr_deltadata_freshness_lag_minuteshurn_rate
  • api_error_rate
  • checkout_success_rate
  • net_mrr_delta
  • data_freshness_lag_分钟
  • 流失率
  • 图片由 Yassin Zehar 提供。用于说明
    公司评审 产品团队受人尊敬
    发生一次事件可能会发生,但同一事件发生两次就是错误。
    解决方案