分支:用于协作 ML 的 4 个 Git 工作流

完成硕士学位已经 15 年多了,但我仍然被管理 R 脚本的令人抓狂的挫败感所困扰。作为一个(正在恢复的)完美主义者,我非常系统地按日期命名每个脚本(想想:ancova_DDMMYYYY.r)。我*知道*的系统比 _v1、_v2、_final 及其敌人更好。对吗?问题是,每次我想 […]The post Branching Out: 4 Git Workflows for Collaborating on ML 最先出现在 Towards Data Science 上。

来源:走向数据科学

距离我获得硕士学位已经过去 15 年多了,但我仍然被管理 R 脚本的烦人挫败感所困扰。作为一个(正在康复的)完美主义者,我非常系统地按日期命名每个脚本(想想:ancova_DDMMYYYY.r)。我*知道*这个系统比 _v1、_v2、_final 及其敌人更好。对吧?

R ancova_DDMMYYYY.r _v1 _v2 _final

问题是,每次我想调整模型输入或查看以前的模型版本时,我都必须在大量脚本中穿梭。

几年后,我学习了几种编程语言,经历了职业生涯的曲折,我清楚地看到,我独自面对代码版本控制的挣扎是一个幸运的警钟。

虽然我设法克服了早期的挑战(也有一些尴尬的时刻!),但现在我认识到,大多数开发,尤其是采用敏捷工作方式的开发,都依赖于强大的版本控制系统。跟踪更改、恢复到以前的版本以及确保协作代码库中的可重复性的能力不能是事后才想到的。这实际上是必需的。

当我们使用版本控制工作流(通常在 Git 中)时,我们为开发和部署更可靠、更高质量的数据和 AI 解决方案奠定了基础。

在我们开始之前

在我们开始之前

如果您已经使用版本控制并且正在为您的团队考虑不同的工作流程,欢迎!您来对地方了。

如果您是 Git 新手或仅在个人项目中使用过它,我建议您查看一些入门级 Git 原则。在进入团队工作流程之前,您需要了解更多背景知识。GitHub 在此处提供了几个 Git 和 GitHub 教程的链接。这篇入门文章介绍了一些基础知识,例如如何创建 repo 和添加文件。

此处

开发团队的工作方式不同

开发团队的工作方式不同

但一个普遍存在的特点是依赖版本控制。

您可能会发现这个想法很自由。您和您的团队可以自由设计适合您的 Git 工作流程!

让 Git 成为你的朋友

git revert Git -u -m -m