ISCB蛋白是在IS200/IS605转座子的不同家族中编码的推定核酸酶,可能是RNA引导的核酸内切酶Cas9的祖先,但是ISCB的功能及其与任何RNA的相互作用仍然没有特征。使用进化分析,RNA测序和生化实验,我们从IS200/IS605转座子中重建了CRISPR-CAS9系统的演变。我们发现ISCB使用单个非编码RNA进行双链DNA的RNA引导的切割,并且可以利用人类细胞中的基因组编辑。我们还展示了TNPB的RNA引导的核酸酶活性,另一种IS200/IS605转座子编码的蛋白质以及Cas12核酸内切核酸酶的祖先。这项工作揭示了一类广泛的转座子编码的RNA引导的核酸酶,我们将其命名为Omega(强制性移动元件 - 引导活动),具有强大的生物技术发展潜力。t
转座在重塑所有生物体的基因组中起着关键作用 1 。IS200/IS605 和 IS607 家族 2 的插入序列是最简单的移动遗传元件之一,仅包含其转座及其调控所需的基因。这些元件编码 tnpA 转座酶,这对于动员至关重要,并且通常携带辅助 tnpB 基因,而该基因对于转座而言并非必需。尽管 TnpA 在 IS200/IS605 转座子动员中的作用已得到充分证实,但 TnpB 的功能仍然很大程度上未知。有人提出 TnpB 在转座调控中发挥作用,尽管尚未确定相关机制 3–5 。生物信息学分析表明 TnpB 可能是 CRISPR–Cas9/Cas12 核酸酶的前身 6–8 。然而,尚未发现 TnpB 具有任何生化活性。我们在此表明,耐辐射奇球菌 ISDra2 的 TnpB 是一种 RNA 引导的核酸酶,受来自转座子右端元件的 RNA 引导,切割 5′-TTGAT 转座子相关基序旁的 DNA。我们还表明,TnpB 可以重新编程以切割人类细胞中的 DNA 靶位。总之,这项研究通过强调 TnpB 在转座中的作用扩展了我们对转座机制的理解,通过实验证实了 TnpB 是 CRISPR-Cas 核酸酶的功能性前体,并将 TnpB 确立为基因组编辑新系统的原型。
结果:在这项工作中,我们提出了 Evo,这是一个基因组基础模型,可以实现从分子到基因组规模的预测和生成任务。使用基于深度信号处理进展的架构,我们将 Evo 扩展到 70 亿个参数,上下文长度为 131 千碱基,单核苷酸分辨率。我们报告了 DNA 的缩放定律,补充了自然语言和视觉中的类似观察结果。在 270 万个原核生物和噬菌体基因组上进行训练后,Evo 展示了跨 DNA、RNA 和蛋白质模态的零样本函数预测,其性能可与特定领域语言模型相媲美,甚至优于特定领域语言模型。Evo 还擅长多模态生成任务,我们通过生成合成的 CRISPR-Cas 分子复合物和可转座系统证明了这一点。我们通过实验验证了 Evo 生成的 CRISPR-Cas 分子复合物以及 IS200 和 IS605 转座系统的功能活性,这是使用语言模型进行蛋白质-RNA 和蛋白质-DNA 协同设计的第一个例子。利用从整个基因组中学到的信息,Evo 了解核苷酸序列的微小变化如何影响整个生物体的适应性,并可以生成具有合理基因组结构的 DNA 序列,长度超过 1 兆碱基。
202. 3) Wang, JY, Tuck, OT, Skopintsev, P., Soczek, KM, Li, G., Al-Shayeb, B., Zhou, J., & Doudna, JA (2023) 通过 CRISPR 修剪器整合酶进行基因组扩展。Nature,618,855 ‒ 861。4) Wang, JY, Pausch, P., & Doudna, JA (2022) CRISPR-Cas 免疫和基因组编辑酶的结构生物学。Nat. Rev. Microbiol. , 20 , 641 ‒ 656。5) Anzalone, AV、Randolph, PB、Davis, JR、Sousa, AA、Ko-blan, LW、Levy, JM、Chen, PJ、Wilson, C.、Newby, GA、Raguram, A. 等人 (2019) 无需双链断裂或供体 DNA 的搜索和替换基因组编辑。Nature,576,149 ‒ 157。6) Mehta, J. (2021) CRISPR-Cas9 基因编辑用于治疗镰状细胞病和β地中海贫血。N. Engl. J. Med.,384,e91。 7) Kapitonov, VV, Makarova, KS, & Koonin, EV (2015) ISC,一组编码 Cas9 同源物的新型细菌和古细菌 DNA 转座子。J. Bacteriol. ,198,797 ‒ 807。8) Altae-Tran, H., Kannan, S., Demircioglu, FE, Oshiro, R., Nety, SP, McKay, LJ, Dlakić, M., Inskeep, WP, Makarova, KS, Macrae, RK, et al. (2021) 广泛分布的 IS200/IS605 转座子家族编码多种可编程的 RNA 引导的核酸内切酶。 Science , 374 , 57 œ 65。9) Weinberg, Z., Perreault, J., Meyer, MM, & Breaker, RR (2009) 细菌宏基因组分析揭示的特殊结构化非编码 RNA。Nature , 462 , 656 œ 659。10) Hirano, S., Kappel, K., Altae-Tran, H., Faure, G., Wilkinson, ME, Kannan, S., Demircioglu, FE, Yan, R., Shiozaki, M., Yu, Z., et al. (2022) OMEGA 切口酶 IsrB 与 ω RNA 和靶 DNA 复合的结构。 Nature , 610 , 575 œ 581。11) Biou, V., Shu, F., 和 Ramakrishnan, V. (1995) X 射线晶体学显示翻译起始因子 IF3 由两个通过 α 螺旋连接的紧凑的 α/β 结构域组成。EMBO J. , 14 , 4056 œ 4064。12) Schuler, G., Hu, C., 和 Ke, A. (2022) IscB-ω RNA 进行 RNA 引导的 DNA 切割的结构基础以及与 Cas9 的机制比较。 Science,376,1476 ‒ 1481。13) Bravo, JPK、Liu, MS、Hibshman, GN、Dangerfield, TL、Jung, K.、McCool, RS、Johnson, KA 和 Taylor, DW (2022) CRISPR-Cas9 错配监测的结构基础。Nature,603,343 ‒ 347。14) Aliaga Goltsman, DS、Alexander, LM、Lin, JL、Fregoso Ocampo, R.、Freeman, B.、Lamothe, RC、Perez Rivas, A.、Temoche-Diaz, MM、Chadha, S.、Nordenfelt, N. 等人 (2022) 从未培养的微生物中发现用于基因组编辑的紧凑型 Cas9d 和 HEARO 酶。Nat. Commun. ,13,7602。
