全基因组关联研究的扩展目录(GWAS)提供了各种物种的生物学知识,但是识别这些关联背后的因果变异仍然是一个重大挑战。实验验证既是劳动密集型又昂贵的验证,强调了需要准确,可扩展的计算方法来预测整个基因组遗传变异的影响。受到自然语言处理的最新进展的启发,对广泛的蛋白质序列数据库的无监督预训练已被证明是成功地提取与蛋白质有关的复杂信息的成功。这些模型展示了他们使用零拍方法在编码区域学习变异效应的能力。扩展了这一想法,我们在这里介绍了G Innomic P重新训练的N ETWORK(GPN),该模型旨在通过对基因组DNA的无监督预训练来学习全基因组变体效应。我们的模型还成功地学习了基因结构和DNA基序,而无需进行任何关注。为了证明其效用,我们在阿拉巴里亚山脉的不规则参考基因组中训练GPN,在铜管阶内进行了七个相关物种,并测试了其通过利用1001 Genomes genomes Project and Gensensed Datebase和G.Wasbase的拟南芥中遗传变异的功能影响的能力。没有,GPN的表现优于基于流行的保护评分,例如门类和PHASTCON。我们对拟南芥的预测可以可视化为UCSC基因组浏览器(https://genome.ucsc.edu/s/gbenegas/gbenegas/gpn-arabidopsis)中的序列徽标。我们提供代码(https://github.com/songlab-cal/gpn),以训练GPN的任何给定物种,仅使用其DNA序列,从而实现了整个基因组变异效应的零摄影预测。
主要关键词