科学家开发出新方法来生成用于训练人工智能的蛋白质数据集

生成蛋白质活性数据(上)、读取输出和训练 AI 模型(下)的过程。图片来源:Linqi Cheng/莱斯大学。作者:Rachel Leeson 蛋白质工程是人工智能研究的一个领域。每种蛋白质均由氨基酸组成;为了优化蛋白质功能,研究人员通过切换 [...] 之一来修改蛋白质

来源:ΑΙhub

生成蛋白质活性数据(上)、读取输出和训练 AI 模型(下)的过程。图片来源:Linqi Cheng/莱斯大学。

作者:雷切尔·利森

蛋白质工程是人工智能研究的一个领域。每种蛋白质均由氨基酸组成;为了优化蛋白质功能,研究人员通过将 20 种不同氨基酸中的一种替换为另一种来修饰蛋白质。对于长度仅为 50 个氨基酸的蛋白质,这会导致大约 1.13×10 个潜在组合可供测试。

如此多的潜在组合无法在实验室中进行测试,这使得蛋白质工程成为人工智能的理想挑战。对于该技术的巨大计算能力来说,对这些组合中的哪种组合进行建模将产生最佳结果是一个完美的问题。但人工智能的好坏取决于用于训练它的数据,而在蛋白质工程的某些领域,正确的数据并不存在。

程林奇(左)和韩萧(右)。

“人工智能引导的蛋白质工程的最大瓶颈之一不是提出机器学习模型。而是生成正确且足够的实验数据来训练它们,”莱斯大学化学、生物科学和生物工程教授兼 SynthX 中心主任韩晓说。 “对于优化蛋白质功能的蛋白质活性工程,我们有一个非常明显的问题:根本没有足够的数据集来训练准确的模型。”

为了能够生成能够准确预测如何优化蛋白质功能或活性的 AI 模型,Xiao 的团队必须首先生成有关任何给定蛋白质的足够的活动数据来训练 AI 模型。在最近的《自然生物技术》杂志上,肖的团队以及来自约翰·霍普金斯大学和微软的合作者就做到了这一点,分享了一种在短短三天内提供所需数据并创建准确模型的方法。

莱斯大学