解决(几乎)任何数据科学项目的 5 步指南

结构化方法可以使任何数据科学项目更易于处理。本指南将其分为五个实用步骤,引导您从问题定义到结果。

来源:KDnuggets
作者图片

# 简介

#

你知道没有人告诉你关于数据科学的事情吗?令人兴奋的部分——建模、算法、实现令人印象深刻的指标——大约占成功项目的 20%。另外 80% 显然很无聊:争论成功意味着什么、盯着数据分布、建立基本基线。但这 80% 正是区分已发布项目与保留在 Jupyter Notebook 中的项目的关键。

Jupyter

本指南介绍了适用于不同领域和问题类型的结构。它与特定的工具或算法无关。它是帮助您避免常见陷阱的过程:为错误的目标而构建、遗漏生产中出现的数据质量问题或优化对业务不重要的指标。

我们将介绍构成可靠数据科学工作基础的五个步骤:

    清楚地定义问题。彻底理解您的数据。建立有意义的基线。系统地改进。根据现实条件进行验证。
  • 清楚地定义问题。
  • 彻底了解您的数据。
  • 建立有意义的基线。
  • 系统地改进。
  • 根据现实条件进行验证。
  • 让我们开始吧。

    # 第 1 步:首先用业务术语定义问题,然后用技术术语定义问题

    从需要做出的实际决定开始。不是“预测客户流失”,而是更具体的内容,例如:“考虑到我们只能联系 500 人,而每次联系的费用为 15 美元,请确定未来 30 天内我们的保留活动的目标客户。”

    这个框架立即澄清了以下内容:

      您正在优化的目标(保留支出的投资回报 (ROI),而不是模型准确性)。哪些约束很重要(时间、预算、联系限制)。成功是什么样的(营销活动回报与模型指标)。
  • 您正在优化的目标(保留支出的投资回报 (ROI),而不是模型准确性)。
  • 哪些限制很重要(时间、预算、联系限制)。