详细内容或原文请订阅后点击阅览
如何在云端训练深度学习模型
如何在 Google Cloud 中创建 VM 实例、传输深度学习模型并使用来自云存储的外部数据运行训练作业
来源:AI夏令营在训练大型深度学习模型时,我们需要克服许多障碍。首先,我们需要获取大量数据。训练依赖于其他步骤,例如微调我们的架构和超参数、准确性以及构建某种日志记录和可视化。显然,我们应该跟踪进度等等。然而,最常见的困难之一是缺乏硬件资源。我们大多数人没有 NVIDIA Titan RTX,或者我们无法访问 PC 集群,因此我们被迫在每次训练迭代中等待数小时来评估我们的模型。
缺乏硬件资源我也明白我们很想购买高端 GPU。老实说,我已经尝试过了。不过,有一种更简单的方法来训练我们的模型,我相信你知道。它叫做云。谷歌云、亚马逊网络服务和微软 Azure 等云提供商是低成本、高端基础设施的绝佳例子。云通常针对机器学习应用程序。
在今天的文章中,我们将采用我们之前构建的执行图像分割的 Unet 模型,将其部署在谷歌云中并在那里运行完整的训练作业。如果您还记得我们本系列的上一篇文章,我们在 Tensorflow 中开发了一个自定义训练循环。目标是几乎不加改变地使用该代码并在谷歌云实例中运行它。
将其部署在谷歌云中并在那里运行完整的训练作业 本系列的最后一篇文章你可能会想什么是实例?我们会到达那里,别担心。
关于文章的结构,我认为我应该一步一步地解释重要的主题和细节,同时概述实现最终目标所需的所有必要说明。
我们开始吧?
云计算
我相信您知道什么是云计算,但为了保持一致性,我们给出一个高级定义。
按需哇哦,我说得对吗?
计算引擎 这里