详细内容或原文请订阅后点击阅览
解决(几乎)任何数据科学项目的 5 步指南
结构化方法可以使任何数据科学项目更易于处理。本指南将其分为五个实用步骤,引导您从问题定义到结果。
来源:KDnuggets# 简介
#你知道没有人告诉你关于数据科学的事情吗?令人兴奋的部分——建模、算法、实现令人印象深刻的指标——大约占成功项目的 20%。另外 80% 显然很无聊:争论成功意味着什么、盯着数据分布、建立基本基线。但这 80% 正是区分已发布项目与保留在 Jupyter Notebook 中的项目的关键。
Jupyter本指南介绍了适用于不同领域和问题类型的结构。它与特定的工具或算法无关。它是帮助您避免常见陷阱的过程:为错误的目标而构建、遗漏生产中出现的数据质量问题或优化对业务不重要的指标。
我们将介绍构成可靠数据科学工作基础的五个步骤:
- 清楚地定义问题。彻底理解您的数据。建立有意义的基线。系统地改进。根据现实条件进行验证。
让我们开始吧。
# 第 1 步:首先用业务术语定义问题,然后用技术术语定义问题
从需要做出的实际决定开始。不是“预测客户流失”,而是更具体的内容,例如:“考虑到我们只能联系 500 人,而每次联系的费用为 15 美元,请确定未来 30 天内我们的保留活动的目标客户。”
这个框架立即澄清了以下内容:
- 您正在优化的目标(保留支出的投资回报 (ROI),而不是模型准确性)。哪些约束很重要(时间、预算、联系限制)。成功是什么样的(营销活动回报与模型指标)。
