2 加州理工学院化学与化学工程部,加利福尼亚州帕萨迪纳 91125,美国 3 加州理工学院工程与应用科学部,加利福尼亚州帕萨迪纳 91125,美国 4 现地址:默克公司,南旧金山,加利福尼亚州 94080 5 现地址:苏黎世联邦理工学院生物系统科学与工程系,Schanzenstrasse 44,4056 Basel 6 主要联系人* 通讯作者:Frances H. Arnold,frances@cheme.caltech.edu Yisong Yue,yyue@caltech.edu 摘要 各种机器学习辅助定向进化 (MLDE) 策略已被证明能比典型的湿实验室定向进化方法更有效地识别高适应度蛋白质变体。然而,对影响 MLDE 在不同蛋白质中表现的因素的了解有限,阻碍了湿实验室活动的最佳策略选择。为了解决这个问题,我们系统地分析了多种 MLDE 策略,包括使用六种不同的零样本预测因子的主动学习和集中训练,涵盖 16 种不同的蛋白质适应度景观。通过用六个属性量化景观导航能力,我们发现 MLDE 在定向进化更具挑战性的景观上提供了更大的优势,尤其是当集中训练与主动学习相结合时。尽管不同景观的优势程度各不相同,但利用不同的进化、结构和稳定性知识来源的零样本预测因子的集中训练在结合相互作用和酶活性方面始终优于随机采样。我们的研究结果为选择蛋白质工程的 MLDE 策略提供了实用指南。关键词组合诱变、定向进化、上位性、适应度预测、机器学习、蛋白质工程、零样本预测因子
摘要 - 指导的进化,一种蛋白质工程的策略,通过严格且资源密集的筛查或在广泛的突变中进行筛选或选择的过程来优化蛋白质特性(即健身)。通过对序列属性进行计算机筛选,机器学习引导的定向进化(MLDE)可以加快优化过程并减轻实验工作量。在这项工作中,我们提出了一个通用的MLDE框架,在该框架中,我们应用了蛋白质表示学习和蛋白质属性预测中深度学习的最新进步,以加速搜索和优化过程。特别是我们引入了一条优化管道,该管道利用大型语言模型(LLMS)来查明序列中的突变热点,然后建议替换以提高整体适应性。与其他最先进的基线算法相比,我们提出的框架在条件蛋白质产生中的效率和功效提高了。我们希望这项工作将不仅对蛋白质工程,而且对使用数据驱动方法解决组合问题进行新的启示。我们的实施可在https://github.com/ hysonlab/directed Evolution上公开获取。