超越代码生成:完整数据科学工作流程的人工智能

使用 Codex 和 MCP 在一个真实的工作流程中连接 Google Drive、GitHub、BigQuery 和分析超越代码生成:完整数据科学工作流程的人工智能一文首先出现在 Towards Data Science 上。

来源:走向数据科学

持续感受到 AI FOMO 的感觉。每天,我都会看到人们分享人工智能技巧、他们构建的新代理和技能,以及振动编码的应用程序。我越来越意识到,快速适应人工智能正在成为当今数据科学家保持竞争力的要求。

但我谈论的不仅仅是使用 ChatGPT 进行头脑风暴、使用 Cursor 生成代码或与 Claude 一起完善报告。更大的转变是人工智能现在可以参与更多的端到端数据科学工作流程。

为了使这个想法具体化,我使用我的 Apple Health 数据在一个真实的项目中进行了尝试。

一个简单的例子 — Apple 健康分析

上下文

自 2019 年以来,我每天都佩戴 Apple Watch 来追踪我的健康数据,例如心率、能量消耗、睡眠质量等。这些数据包含了我多年来日常生活的行为信号,但 Apple Health 应用程序大多以简单的趋势视图来呈现。

六年前,我尝试分析一项为期两年的 Apple Health 导出。但它最终成为你从未完成的副项目之一……我这次的目标是在人工智能的帮助下快速从原始数据中提取更多见解。

我必须使用什么

以下是我拥有的相关资源:

  • 原始 Apple Health 导出数据:XML 格式的 1.85GB,已上传到我的 Google Drive。
  • 用于解析六年前我的 GitHub 存储库中的原始导出到结构化数据集的示例代码。但代码可能已经过时了。
  • 没有人工智能的工作流程

    没有人工智能的标准工作流程看起来很像我六年前尝试过的:检查 XML 结构,编写 Python 将其解析为结构化本地数据集,使用 Pandas 和 Numpy 进行 EDA,并总结见解。

    我相信每个数据科学家都熟悉这个过程 ——它不是火箭科学,但需要时间来构建。要获得一份完善的见解报告,至少需要一整天的时间。这就是为什么那个已有 6 年历史的 repo 仍然被标记为 WIP……

    AI 端到端工作流程

    我更新的 AI 工作流程是:

  • AI 在我的 Google Drive 中找到原始数据并下载。