环境DNA作为生物多样性监测的互补工具:一种多技术和多营养学方法,用于研究鲸类分布和进食生态学
机构名称:
¥ 2.0

基础模型在几个领域取得了巨大的成功,例如自然语言处理,计算机视觉和最近的生物学。DNA粉底模型尤其是作为基因组学有前途的方法而出现的。然而,到目前为止,尚无模型在广泛的基因组和调节元素上提供了核苷酸级预测,从而限制了它们的实际实用性。在本文中,我们基于以前在核苷酸跨前(NT)上的工作,以开发分割模型分割,该模型将处理至30kb-long的输入DNA序列,以预测单核苷酸分辨率下的14种基因组元素类别类别。通过利用NT的预训练权重,分段超过了几种消融模型的性能,包括具有单热编码的核苷酸序列和从SCRATCH训练的模型的卷积网络。分段可以使用零射线通用的多个序列长度来处理高达50kb的序列。我们在整个基因组的剪接位点检测中显示出改善的性能,并表现出强核苷酸水平的精度。因为它同时评估所有基因元件,因此分段可以预测序列变体对剪接位点变化的影响,而且还可以预测转录本相工相的外显子和内含子重排的影响。最后,我们表明,对人类基因组元素进行训练的分段模型可以推广到不同的人和植物物种的元素,并且训练有素的多种阶段分段模型可以实现对不见物物种的所有基因元素的更强的概括。总而言之,分段表明DNA粉底模型可以在单核苷酸分辨率下处理基因组学中复杂的颗粒状任务。分段可以很容易地扩展到其他基因组元素和物种,从而代表了我们分析和解释DNA的新范式。我们使我们的jax的github存储库中可在pytorch的jax和huggingface空间上提供分段-30kb的人类和多物种模型。

环境DNA作为生物多样性监测的互补工具:一种多技术和多营养学方法,用于研究鲸类分布和进食生态学

环境DNA作为生物多样性监测的互补工具:一种多技术和多营养学方法,用于研究鲸类分布和进食生态学PDF文件第1页

环境DNA作为生物多样性监测的互补工具:一种多技术和多营养学方法,用于研究鲸类分布和进食生态学PDF文件第2页

环境DNA作为生物多样性监测的互补工具:一种多技术和多营养学方法,用于研究鲸类分布和进食生态学PDF文件第3页

环境DNA作为生物多样性监测的互补工具:一种多技术和多营养学方法,用于研究鲸类分布和进食生态学PDF文件第4页

环境DNA作为生物多样性监测的互补工具:一种多技术和多营养学方法,用于研究鲸类分布和进食生态学PDF文件第5页

相关文件推荐