基础模型在几个领域取得了巨大的成功,例如自然语言处理,计算机视觉和最近的生物学。DNA粉底模型尤其是作为基因组学有前途的方法而出现的。然而,到目前为止,尚无模型在广泛的基因组和调节元素上提供颗粒状的核苷酸水平预测,从而限制了其实际实用性。在本文中,我们基于以前在核苷酸变压器(NT)上的工作,以开发一个分割模型,即分割,该模型在单核苷酸分辨率下处理输入DNA序列的输入DNA序列,以预测14个基因组学元素的14种基因组学元素。通过利用NT的预训练权重,分段超过了几种消融模型的性能,包括具有单热编码的核苷酸序列和从SCRATCH训练的模型的卷积网络。分段可以处理多个序列的多个序列长度,以零拍概括,以达到50kbp的序列。我们在整个基因组的剪接位点检测中显示出改善的性能,并表现出强核苷酸水平的精度。因为它同时评估了所有基因元素,因此分段可以预测序列变体对剪接位点变化的影响,而且还可以预测转录本同工型中外显子和内含子重排的影响。最后,我们表明,对人类基因组学元素进行训练的分段模型可以推广到不同物种的元素,并且训练有素的多种属性分段模型可以实现对不见物物种的所有基质元素的更强的一般性。总而言之,分段表明DNA粉底模型可以在单核苷酸分辨率下处理基因组学中复杂的颗粒状任务。分段很容易扩展到其他基因组学元素和物种,因此代表了我们分析和解释DNA的新范式。我们使我们的jax的github存储库中可在pytorch的jax和huggingface空间上提供分段-30kb的人类和多物种模型。
主要关键词