详细内容或原文请订阅后点击阅览
在 Amazon SageMaker AI 上使用 BoltzGen 加速蛋白质设计
在这篇文章中,我们演示了如何在 SageMaker AI 上部署 BoltzGen 并运行端到端蛋白质设计实验。在演练结束时,您将拥有一个可从快速验证运行扩展到生产批处理的工作设置。该设置为不同的研究阶段提供了两种执行模式,并使用步骤级缓存来减少迭代工作流程期间的计算费用。
来源:亚马逊云科技 _机器学习Amazon SageMaker AI 上的 BoltzGen 通过端到端管理 GPU 计算基础设施来加速蛋白质结合剂设计。BoltzGen 是一种基于扩散的生成模型,可设计能够与特定生物分子目标结合的蛋白质和肽。典型的设计活动涉及多个 GPU 密集型步骤:主干生成、反向折叠、结构验证和候选排序。在数百、数千甚至数百万的设计候选中运行这些步骤会在配置实例、在步骤之间移动数据以及跟踪成本方面带来运营开销。 SageMaker AI 管理从实例配置到结果交付和资源清理的计算生命周期,因此您可以专注于设计迭代而不是基础设施运营。
在这篇文章中,我们演示了如何在 SageMaker AI 上部署 BoltzGen 并运行端到端蛋白质设计实验。在演练结束时,您将拥有一个可从快速验证运行扩展到生产批处理的工作设置。该设置为不同的研究阶段提供了两种执行模式,并使用步骤级缓存来减少迭代工作流程期间的计算费用。
本演练适用于学术研究实验室、生物技术初创公司、药物研发小组和教育项目,无论您从事蛋白质结合剂设计、治疗性蛋白质工程还是从头蛋白质架构工作。
SageMaker AI 如何解决蛋白质设计瓶颈
BoltzGen 活动中的每一步都在 GPU 硬件上运行,并一次处理一个设计规范。根据存储库的基准数据,在 4-GPU 实例 (ml.g5.12xlarge) 上,1,000 个样本的活动大约需要 375 小时才能完成。操作此基础设施涉及构建 CUDA 环境(例如安装 CUDA 驱动程序和设置工具包)、协调 GPU 实例生命周期、在步骤之间构建数据管道以及从长时间运行的作业中的故障中恢复。
