摘要 - 指导的进化,一种蛋白质工程的策略,通过严格且资源密集的筛查或在广泛的突变中进行筛选或选择的过程来优化蛋白质特性(即健身)。通过对序列属性进行计算机筛选,机器学习引导的定向进化(MLDE)可以加快优化过程并减轻实验工作量。在这项工作中,我们提出了一个通用的MLDE框架,在该框架中,我们应用了蛋白质表示学习和蛋白质属性预测中深度学习的最新进步,以加速搜索和优化过程。特别是我们引入了一条优化管道,该管道利用大型语言模型(LLMS)来查明序列中的突变热点,然后建议替换以提高整体适应性。与其他最先进的基线算法相比,我们提出的框架在条件蛋白质产生中的效率和功效提高了。我们希望这项工作将不仅对蛋白质工程,而且对使用数据驱动方法解决组合问题进行新的启示。我们的实施可在https://github.com/ hysonlab/directed Evolution上公开获取。
主要关键词