GPT系列的成功证明,GPT可以从序列中提取一般信息,从而使所有下游任务受益。这促使我们使用预训练的模型来探索DNA序列中的隐藏信息。但是,DNA序列分析中的数据和任务需求是复杂性和多样性,因为DNA相关数据包括不同类型的信息,例如序列,表达水平等,而目前尚无专门为这些特征设计的模型。在此,我们提出了DNAGPT,这是一种从9种的超过100亿个碱基对进行预训练的广义基础模型,可以对任何DNA序列分析任务进行微调。我们的模型可以同时处理或输出DNA序列和数字。此外,我们独特的令牌设计使用户可以根据自己的任务要求设计提示,从而适用于任何类型的任务。我们已经评估了我们的分类,回归和生成任务的模型。我们证明了DNAGPT受益于预训练,因此可以为任何下游任务带来绩效提高。我们的模型不仅是基因组分析领域的新尝试,而且为在生物学中应用基础模型提供了新的方向。
预先训练的大语言模型表明了从DNA序列中提取信息的潜力,但是适应各种任务和数据模式仍然是一个挑战。为了解决这个问题,我们提出了DNAGPT,这是一种对所有哺乳动物的超过2000亿碱基对训练的广义DNA预训练模型。通过使用二进制分类任务(DNA序列顺序)增强经典的GPT模型,一个数值回归任务(鸟嘌呤 - 环胞嘧啶内容预测)以及全面的令牌语言,DNAGPT可以处理多功能DNA分析任务,同时处理序列和数值数据。我们对基因组信号和区域识别,mRNA丰度回归和人工基因组生成任务的评估表明,与为特定的下游任务设计的现有模型相比,DNAGPT的表现优于卓越的性能,受益于使用新设计的模型结构的预培训。
。cc-by-nc-nd 4.0国际许可证(未获得同行评审证书)获得的是作者/资助者,他已授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权所有,该版本于2023年7月17日发布。 https://doi.org/10.1101/2023.03.03.27.534336 doi:Biorxiv Preprint
。cc-by 4.0未经同行评审获得的未获得的国际许可证是作者/筹款人,他已授予Biorxiv的许可证,以永久显示预印本。它是此预印本的版权持有人(该版本发布于2023年7月15日。; https://doi.org/10.1101/2023.07.14.549076 doi:biorxiv Preprint