Metagenomi 使用 AWS Inferentia 经济高效地生成数百万种新型酶

In this post, we detail how Metagenomi partnered with AWS to implement the Progen2 protein language model on AWS Inferentia, achieving up to 56% cost reduction for high-throughput enzyme generation workflows. The implementation enabled cost-effective generation of millions of novel enzyme variants using EC2 Inf2 Spot Instances and AWS Batch, demonstrating how cloud-based generative AI can make large-scale protein design more accessible for biotechnology applications .

来源:亚马逊云科技 _机器学习
本文由 Metagenomi 的 Audra Devoto、Owen Janson 和 Christopher Brown 以及 Tennex 的 Adam Perry 共同撰写。增强高价值酶的广泛自然多样性的一个有前途的策略是使用生成式 AI,特别是蛋白质语言模型 (pLM),在已知酶上进行训练,以创建更多数量级的给定酶类别的预测示例。通过生成人工智能扩展天然酶多样性具有许多优势,包括提供多种酶变体,这些变体可能会在人类细胞中提供增强的稳定性、特异性或功效,但高通量生成的成本可能会很高,具体取决于所使用的模型的大小和所需酶变体的数量。在 Metagenomi,我们正在利用专有的 CRISPR 基因编辑酶开发潜在的治疗方法。我们利用数据库 (MGXdb) 中酶的广泛天然多样性来识别天然酶候选物,并训练用于生成 AI 的蛋白质语言模型。通过生成 AI 扩展天然酶类别,我们可以访问给定酶类别的其他变体,这些变体通过多模型工作流程进行过滤,以预测关键酶特性,并用于支持蛋白质工程活动,以提高给定背景下的酶性能。在这篇博文中,我们详细介绍了通过在 AWS Inferentia 上实施 Progen2 模型来降低高通量蛋白质生成 AI 工作流程成本的方法,该模型 在 AWS Batch 和 Amazon Elastic Compute Cloud (Amazon EC2) Spot 实例上实现酶变体的高吞吐量生成,成本降低高达 56%。这项工作是与 AWS Neuron 团队和 Tennex 的工程师合作完成的。AWS InferentiaPyTorch 模型上的 Progen2 可以使用 AWS 神经元核心作为加速器,这促使我们在高吞吐量蛋白质设计工作流程中使用 AWS Inferentia 支持的 EC2 Inf2 实例类型,以将其成本效益和更高的可用性用作 Spot 实例。我们选择了 autoregres