结果:在这项工作中,我们提出了 Evo,这是一个基因组基础模型,可以实现从分子到基因组规模的预测和生成任务。使用基于深度信号处理进展的架构,我们将 Evo 扩展到 70 亿个参数,上下文长度为 131 千碱基,单核苷酸分辨率。我们报告了 DNA 的缩放定律,补充了自然语言和视觉中的类似观察结果。在 270 万个原核生物和噬菌体基因组上进行训练后,Evo 展示了跨 DNA、RNA 和蛋白质模态的零样本函数预测,其性能可与特定领域语言模型相媲美,甚至优于特定领域语言模型。Evo 还擅长多模态生成任务,我们通过生成合成的 CRISPR-Cas 分子复合物和可转座系统证明了这一点。我们通过实验验证了 Evo 生成的 CRISPR-Cas 分子复合物以及 IS200 和 IS605 转座系统的功能活性,这是使用语言模型进行蛋白质-RNA 和蛋白质-DNA 协同设计的第一个例子。利用从整个基因组中学到的信息,Evo 了解核苷酸序列的微小变化如何影响整个生物体的适应性,并可以生成具有合理基因组结构的 DNA 序列,长度超过 1 兆碱基。
主要关键词