C现在的地址:Google Deepmind,6 Pancras Square,Kings Cross,伦敦,N1C 4AG(英国)通讯作者:Arnold,Frances H.(Frances@cheme.caltech.edu)作者联系人:Bruce J. Wittmann(Bwittman@caltech.edu) Kadina E. Johnston(kjohnston@caltech.edu); Zachary Wu(zacharywu@gmail.com)关键字:定向进化,机器学习,蛋白质工程,无监督的学习,自我监督学习,半监督的学习抽象机器学习(ML)可以通过允许研究人员在Silico中移动昂贵的实验筛选来加快导向性进化。收集用于培训ML模型的序列功能数据仍然可能是昂贵的。相比之下,原始蛋白序列数据可广泛使用。ML方法的最新进展使用蛋白质序列来增强有限的序列功能数据,以进行定向进化。我们强调了越来越多地使用序列减少或消除有效硅筛选所需的序列功能数据量的贡献。我们还强调了使用对序列训练的ML模型来生成新功能序列多样性的方法,重点是使用这些生成模型有效探索众多蛋白质空间区域的策略。浏览蛋白质健身景观:用机器学习酶建造地图为生活中最具挑战性的化学问题提供解决方案。酶有效和有选择地催化化学反应的能力不仅可以对其宿主生物有用,而且对人类所设计的无数应用也有用。消除或减少天然蛋白的活性。作为绿色,廉价,高效的催化剂,从药品到消费产品,材料,食物和燃料的行业已经采用了酶,预计其重要性将继续增长[1-3]。酶和许多对人有用的蛋白通常必须在非本地环境中起作用(非水溶液,高温,在存在表面活性剂的情况下等)此外,尽管酶具有显着的选择性,但它们通常具有有限的底物范围,这通常意味着必须通过工程化其氨基酸序列来针对新的靶反应或应用优化新酶[4,5]。蛋白质的序列编码其功能(“适应性”),并且它们之间的关系通常被概念化为称为蛋白质适应性景观的高维空间中的表面[6,7]。新蛋白质是通过搜索这种景观而开发的,通常是通过定向进化的过程[7]。通过将至少少量所需功能的蛋白质对诱变和筛选的蛋白质进行,使用每个回合中的最佳变体作为下一个起点,直到实现功能目标为止(图1A)。尽管取得了成功,但Evolution的指示依赖于广泛的实验室表征,这是一种开发许多工程蛋白质的瓶颈,在该蛋白质中,筛选超过数百万种变体可能是资源密集的。
主要关键词