C现在的地址:Google Deepmind,6 Pancras Square,Kings Cross,伦敦,N1C 4AG(英国)通讯作者:Arnold,Frances H.(Frances@cheme.caltech.edu)作者联系人:Bruce J. Wittmann(Bwittman@caltech.edu) Kadina E. Johnston(kjohnston@caltech.edu); Zachary Wu(zacharywu@gmail.com)关键字:定向进化,机器学习,蛋白质工程,无监督的学习,自我监督学习,半监督的学习抽象机器学习(ML)可以通过允许研究人员在Silico中移动昂贵的实验筛选来加快导向性进化。收集用于培训ML模型的序列功能数据仍然可能是昂贵的。相比之下,原始蛋白序列数据可广泛使用。ML方法的最新进展使用蛋白质序列来增强有限的序列功能数据,以进行定向进化。我们强调了越来越多地使用序列减少或消除有效硅筛选所需的序列功能数据量的贡献。我们还强调了使用对序列训练的ML模型来生成新功能序列多样性的方法,重点是使用这些生成模型有效探索众多蛋白质空间区域的策略。浏览蛋白质健身景观:用机器学习酶建造地图为生活中最具挑战性的化学问题提供解决方案。酶有效和有选择地催化化学反应的能力不仅可以对其宿主生物有用,而且对人类所设计的无数应用也有用。消除或减少天然蛋白的活性。作为绿色,廉价,高效的催化剂,从药品到消费产品,材料,食物和燃料的行业已经采用了酶,预计其重要性将继续增长[1-3]。酶和许多对人有用的蛋白通常必须在非本地环境中起作用(非水溶液,高温,在存在表面活性剂的情况下等)此外,尽管酶具有显着的选择性,但它们通常具有有限的底物范围,这通常意味着必须通过工程化其氨基酸序列来针对新的靶反应或应用优化新酶[4,5]。蛋白质的序列编码其功能(“适应性”),并且它们之间的关系通常被概念化为称为蛋白质适应性景观的高维空间中的表面[6,7]。新蛋白质是通过搜索这种景观而开发的,通常是通过定向进化的过程[7]。通过将至少少量所需功能的蛋白质对诱变和筛选的蛋白质进行,使用每个回合中的最佳变体作为下一个起点,直到实现功能目标为止(图1A)。尽管取得了成功,但Evolution的指示依赖于广泛的实验室表征,这是一种开发许多工程蛋白质的瓶颈,在该蛋白质中,筛选超过数百万种变体可能是资源密集的。
将大型 DNA 序列精确插入基因组的技术对于各种研究和治疗应用至关重要。大型丝氨酸重组酶 (LSR) 可以介导多千碱基 DNA 序列的直接、位点特异性基因组整合,而无需预先安装着陆垫,但目前的方法存在插入率低和脱靶活动率高的问题。在这里,我们提出了一个全面的工程路线图,用于联合优化 DNA 重组效率和特异性。我们结合定向进化、结构分析和计算模型来快速识别附加突变组合。我们通过供体 DNA 优化和 dCas9 融合进一步提高了性能,从而实现了同时招募目标和供体。顶级工程 LSR 变体在内源性人类基因座上实现了高达 53% 的整合效率和 97% 的全基因组特异性,并有效整合大型 DNA 货物(测试高达 12 kb),以在具有挑战性的细胞类型(包括非分裂细胞、人类胚胎干细胞和原代人类 T 细胞)中稳定表达。这种合理设计 DNA 重组酶的蓝图使得精确的基因组工程成为可能,而不会产生双链断裂。
碱基编辑器是一种基因组编辑工具,可通过对 DNA 中的核碱基进行化学修饰来实现位点特异性碱基转换。腺嘌呤碱基编辑器 (ABE) 利用腺苷脱氨酶将目标腺苷修饰为肌苷中间体,从而将 DNA 中的 A•T 转换为 G•C 碱基对。由于缺乏可以修饰 DNA 的天然腺苷脱氨酶,ABE 是从 tRNA 脱氨酶 TadA 进化而来的。之前利用由野生型 (wt) TadA 组成的 ABE 进行的实验未显示对 DNA 的可检测活性,因此需要定向进化以使该酶能够接受 DNA 作为底物。在这里,我们表明 wtTadA 可以在细菌和哺乳动物细胞中的 DNA 中进行碱基编辑,对 TAC 的序列基序有严格的要求。我们利用这一发现优化了报告基因检测,以检测低至 0.01% 的碱基编辑水平。最后,我们将该分析与完整 ABE:DNA 复合物的分子动力学模拟结合使用,以更好地了解突变 TadA 变体的序列识别如何随着它们积累突变而变化,从而更好地编辑 DNA 底物。
碱基编辑器是一种基因组编辑工具,可通过对 DNA 中的核碱基进行化学修饰来实现位点特异性碱基转换。腺嘌呤碱基编辑器 (ABE) 利用腺苷脱氨酶将目标腺苷修饰为肌苷中间体,从而将 DNA 中的 A•T 转换为 G•C 碱基对。由于缺乏可以修饰 DNA 的天然腺苷脱氨酶,ABE 是从 tRNA 脱氨酶 TadA 进化而来的。之前利用由野生型 (wt) TadA 组成的 ABE 进行的实验未显示对 DNA 的可检测活性,因此需要定向进化以使该酶能够接受 DNA 作为底物。在这里,我们表明 wtTadA 可以在细菌和哺乳动物细胞中的 DNA 中进行碱基编辑,对 TAC 的序列基序有严格的要求。我们利用这一发现优化了报告基因检测,以检测低至 0.01% 的碱基编辑水平。最后,我们将该分析与完整 ABE:DNA 复合物的分子动力学模拟结合使用,以更好地了解突变 TadA 变体的序列识别如何随着它们积累突变而变化,从而更好地编辑 DNA 底物。
计算蛋白设计正在成为一种有力的工具,可以使用新颖或增强的功能创建酶,这些功能是无法使用传统方法(例如理性工程和定向进化)来实现的。但是,迄今为止,大多数设计的蛋白质由结构上简单的拓扑组成,远非自然界中采样的复杂性。为了克服这一限制,我们开发了一条基于深度学习的管道,利用Alphafold2的难以置信的精度来设计具有复杂自然蛋白质拓扑和高实验成功率的蛋白质。我们将方法应用于膜蛋白(例如GPCR和Claudins)的可溶性类似物的设计。我们证明我们的可溶性类似物是高度稳定的,在结构上是准确的,并且能够支持溶液中抗体或G蛋白结合的天然表位。然后,我们将管道的功能扩展到高度特异性蛋白质粘合剂的设计。现在,我们能够针对具有前所未有的实验成功率设计粘合剂,例如PD-L1或CD45,以及更具挑战性的靶标,例如CRISPR-CAS核酸酶,Argonautes和常见过敏原。这些进步为具有复杂功能以及在研究,生物技术和疗法中的复杂功能和潜在应用的蛋白质精确设计铺平了道路。
定向进化(DE)是一种蛋白质工程技术,涉及诱变和筛选以搜索优化给定特性的序列(例如将有效绑定到指定目标)。不幸的是,潜在的优化问题不确定,因此引入的突变以提高指定特性可能是以未定的,但重要的属性为代价的(例如,亚细胞定位)。我们试图通过将折叠的正则化因子纳入优化问题来解决这个问题。正则化因子偏向于类似于蛋白质所属折叠族的序列的设计的搜索。我们将方法应用于具有与IgG-FC的官能测量值的大型蛋白质GB1突变体库。我们的结果表明,正则化优化问题会产生更多类似天然的GB1序列,而结合效率仅略有下降。特别是,在GB1折叠族的生成模型下,我们的设计的对数比没有正则化的生成模型高41-45%,而结合效果仅下降了7%。因此,我们的方法能够在竞争性状之间进行交易。此外,我们证明了我们的主动学习驱动方法可将湿lab负担降低,以识别最佳的GB1设计,相对于Arnold Lab在同一数据上的最新结果。
水稻 (Oryza sativa) 是世界范围内重要的主粮作物;面对气候变化,为了满足日益增长的人口日益增长的营养需求,需要改良水稻的质和量性状。必须开发在胁迫条件下产量稳定或更高的抗逆作物品种。基因组编辑和快速育种提高了水稻育种的准确性和速度。包括基因组编辑在内的新育种技术已在水稻中建立,扩大了作物改良的潜力。最近,其他基因组编辑技术,如 CRISPR 定向进化、CRISPR-Cas12a 和碱基编辑器也已用于水稻的有效基因组编辑。由于水稻基因组较小且与其他谷类作物的同源关系密切,是功能研究的极佳模型系统,因此新的基因组编辑技术不断被开发用于水稻。在这篇综述中,我们重点介绍了用于水稻改良的基因组编辑工具,以应对当前的挑战,并提供了水稻基因组编辑的例子。我们还阐明了扩大基因组编辑的范围和提供同源定向修复模板的系统。最后,我们讨论了安全问题和获取无转基因作物的方法。
该研究小组此前已展示了开发一种利用人工智能有效修改蛋白质功能的方法的可能性。利用这种方法,我们现在已经成功地以最少的实验显著提高了酶活性(图 1)。该方法首先通过常规随机诱变方法制备少量突变体,并进行实验以获取人工智能的训练数据(机器学习正常运行所需的数据)。接下来,我们使用人工智能技术贝叶斯优化来预测应该引入什么类型的突变才能获得具有所需功能的蛋白质。这将使我们能够提出一组小规模的突变体,该突变体富含具有所需功能的蛋白质,并且可以低成本用于实验。 在本研究中,我们仅使用从大约 80 个突变体的实验结果中获得的训练数据,成功将肽连接酶分选酶的催化活性提高了五倍(图 2)。此外,我们发现,通过稍微改变训练数据的元素,就可以绘制出一张地图,可视化由突变引起的功能变化的整体情况(图 3)。这些结果证明人工智能在修饰蛋白质功能方面是有效的,希望未来该方法能应用于多种功能蛋白质的开发。 [论文信息] 标题:机器学习指导的定向进化文库设计循环
近年来,嵌合抗原受体 (CAR) T 细胞癌症免疫疗法在临床上取得了长足进展。然而,与安全性相关的挑战仍然存在;一个主要问题是当 CAR 触发对健康细胞上存在的抗原的反应(靶向、肿瘤外反应)时。改善这种情况的策略依赖于受体亲和力和信号传导之间的复杂关系,这样人们就可以设计出一种仅由表达高抗原水平的肿瘤细胞激活的 CAR。在这里,我们开发了一个 CAR T 细胞展示平台,该平台具有稳定的基因组表达和基于白细胞介素 2 信号传导的快速功能筛选。从对靶抗原具有高亲和力的 CAR 开始,我们结合 CRISPR-Cas9 基因组编辑和深度突变扫描来生成抗原结合域变体库。该库根据抗原结合或细胞信号传导进行了多轮选择。对所得文库进行深度测序和比较分析,发现特定变体富集和消耗,我们从中挑选出基于抗原表达水平被肿瘤细胞选择性激活的 CAR。我们的平台展示了如何结合基于功能筛选的定向进化和深度测序引导选择来提高 CAR 的选择性和安全性。
酶的进化使生物技术方面的进步得以巨大进步。但是,定向的进化程序仍然需要许多迭代的筛选以识别最佳的突变序列。这是由于健身景观的稀疏性,这又是由于“隐藏”突变仅与其他突变相结合的“隐藏”突变所致。这些“隐藏”突变仅通过评估突变组合,需要大型组合文库或迭代筛选。在这里,我们报告了一种多代理的定向进化方法,该方法在筛选过程中融合了各种底物类似物。具有多种底物,像多个辅助健身景观一样,我们能够识别“隐藏”突变残基,这些突变型残基无需测试众多组合。我们最初在工程中验证了这种方法,以改善各种非天然底物的活性。我们发现“隐藏”突变通常与活动站点相距甚远,因此很难使用基于结构的方法进行预测。有趣的是,预计在这种情况下确定的许多“隐藏”突变会破坏三级结构元素之间的相互作用,从而可能影响蛋白质的柔韧性。这种方法可能广泛适用于加速酶工程。最后,多机构系统启发的方法可能在解决生物学中其他复杂的组合搜索问题方面更为广泛。