基因组是完全编码 DNA、RNA 和蛋白质的序列,这些序列协调着整个生物体的功能。机器学习的进步与大量全基因组数据集相结合,可以实现生物基础模型,从而加速对复杂分子相互作用的机制理解和生成设计。我们报告了 Evo,这是一种基因组基础模型,可以实现从分子到基因组规模的预测和生成任务。使用基于深度信号处理进步的架构,我们将 Evo 扩展到 70 亿个参数,上下文长度为 131 千碱基 (kb),分辨率为单核苷酸字节。Evo 在整个原核生物基因组上进行训练,可以推广到分子生物学中心法则的三个基本模式,以执行零样本函数预测,其性能可与领先的领域特定语言模型相媲美,甚至优于它们。Evo 还擅长多元素生成任务,我们通过首次生成合成的 CRISPR-Cas 分子复合物和整个可转座系统来证明这一点。利用从整个基因组中学到的信息,Evo 还可以在核苷酸分辨率下预测基因的必要性,并可以生成长度高达 650 kb 的编码丰富序列,比以前的方法长几个数量级。Evo 在多模态和多尺度学习方面的进步为提高我们对多个复杂程度的生物学的理解和控制提供了一条有希望的道路。
主要关键词