预先训练的大语言模型表明了从DNA序列中提取信息的潜力,但是适应各种任务和数据模式仍然是一个挑战。为了解决这个问题,我们提出了DNAGPT,这是一种对所有哺乳动物的超过2000亿碱基对训练的广义DNA预训练模型。通过使用二进制分类任务(DNA序列顺序)增强经典的GPT模型,一个数值回归任务(鸟嘌呤 - 环胞嘧啶内容预测)以及全面的令牌语言,DNAGPT可以处理多功能DNA分析任务,同时处理序列和数值数据。我们对基因组信号和区域识别,mRNA丰度回归和人工基因组生成任务的评估表明,与为特定的下游任务设计的现有模型相比,DNAGPT的表现优于卓越的性能,受益于使用新设计的模型结构的预培训。
GPT系列的成功证明,GPT可以从序列中提取一般信息,从而使所有下游任务受益。这促使我们使用预训练的模型来探索DNA序列中的隐藏信息。但是,DNA序列分析中的数据和任务需求是复杂性和多样性,因为DNA相关数据包括不同类型的信息,例如序列,表达水平等,而目前尚无专门为这些特征设计的模型。在此,我们提出了DNAGPT,这是一种从9种的超过100亿个碱基对进行预训练的广义基础模型,可以对任何DNA序列分析任务进行微调。我们的模型可以同时处理或输出DNA序列和数字。此外,我们独特的令牌设计使用户可以根据自己的任务要求设计提示,从而适用于任何类型的任务。我们已经评估了我们的分类,回归和生成任务的模型。我们证明了DNAGPT受益于预训练,因此可以为任何下游任务带来绩效提高。我们的模型不仅是基因组分析领域的新尝试,而且为在生物学中应用基础模型提供了新的方向。
