Outpost VFX 如何使用 AWS 加速视觉效果 AI 模型训练

在这篇文章中,我们将探讨 Outpost VFX 如何使用 AWS 基础设施将训练速度提高 8 倍,以转变其面部替换工作流程、他们为克服单 GPU 限制而实施的技术架构,以及通过 AWS 多 GPU 训练实现的可衡量结果。

来源:亚马逊云科技 _机器学习

这篇文章是与 Outpost VFX 的 Tim Chauncey 和 Dheeraj Bhadani 共同撰写的。

视觉效果 (VFX) 的 AI 模型训练可能需要数周时间,从而造成生产时间瓶颈。 Outpost VFX 在英国、加拿大和印度设有工作室,提供高端电影和剧集内容,每天的延迟都会影响客户的交付成果和项目进度。

在这篇文章中,我们将探讨 Outpost VFX 如何使用 AWS 基础设施将训练速度提高 8 倍,以转变其面部替换工作流程、他们为克服单 GPU 限制而实施的技术架构,以及通过 AWS 多 GPU 训练实现的可衡量结果。

挑战:AI 训练中的单 GPU 瓶颈

视觉效果制作中的传统面部替换工作流程需要超过 5 天的合成或专业美容和去衰老支持才能创建初始版本以供导演批准。这些方法虽然有效,但会在迭代审批流程的早期(对生产时间线最关键的阶段)造成瓶颈。对于视觉特效专业人士来说,缓慢的人工智能培训会直接导致错过最后期限、增加成本和延迟客户反馈周期。

Outpost VFX 开发了一种人工智能模型,能够对现场镜头进行训练,以加速面部替换过程。然而,效率受到单 GPU 计算限制的限制。现有的换脸工具一次只能使用一个 GPU,限制了视频随机存取存储器 (VRAM) 的访问和模型训练操作的处理能力。这使得团队无法充分发挥人工智能辅助方法的潜力。

设计考虑

Outpost VFX 确定了优化 AI 工作流程的三个关键技术要求:

  • 计算可扩展性——团队需要跨多个 GPU 并行进行面部替换模型训练,以实现有意义的效率提升。单 GPU 训练导致模型迭代周期延迟一周。
  • 结论