Loading...
机构名称:
¥ 1.0

全基因组关联研究的扩展目录(GWAS)提供了各种物种的生物学知识,但是识别这些关联背后的因果变异仍然是一个重大挑战。实验验证既是劳动密集型又昂贵的验证,强调了需要准确,可扩展的计算方法来预测整个基因组遗传变异的影响。受到自然语言处理的最新进展的启发,在大型蛋白质序列数据库中无监督的预训练已证明在提取与蛋白质有关的复杂信息方面取得了成功。这些模型展示了使用无监督方法在编码区域中学习变异效应的问题。扩展了这一想法,我们在这里介绍了G Innomic P重新训练的N ETWORK(GPN),该模型旨在通过对基因组DNA的无监督预训练来学习全基因组变体效应。我们的模型还成功地学习了基因结构和DNA基序,而无需进行任何关注。为了证明其效用,我们对Arabidopsis thaliana的不和谐参考基因组进行了训练,在铜管序内训练了七个相关物种,并评估了其对拟南芥中植物变异的功能影响的abil,通过利用来自1001 Genomes genomes Project的拟南芥的功能影响。值得注意的是,GPN的表现优于基于流行的保护分数,例如门类和PHASTCON的预测因子。我们对拟南芥的预测可以可视化为UCSC基因组浏览器(https://genome.ucsc.edu/s/gbenegas/gbenegas/gpn-arabidopsis)中的序列徽标。我们仅使用其DNA序列提供代码(https://github.com/songlab-cal/gpn)为任何给定的物种训练GPN,从而实现了整个基因组中对变异效应的无监督预测。

DNA语言模型是基因组的有力预测指标 -

DNA语言模型是基因组的有力预测指标 -PDF文件第1页

DNA语言模型是基因组的有力预测指标 -PDF文件第2页

DNA语言模型是基因组的有力预测指标 -PDF文件第3页

DNA语言模型是基因组的有力预测指标 -PDF文件第4页

DNA语言模型是基因组的有力预测指标 -PDF文件第5页

相关文件推荐

2024 年
¥1.0
2025 年
¥1.0
2024 年
¥10.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥2.0
1900 年
¥4.0
2023 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0