基因预测长期以来一直是生物信息学研究的活跃领域。仍然,大核基因组中的基因预测提出了一个挑战,必须通过新算法来解决。转录组和蛋白质组可获得的词的数量和意义在基因组,基因甚至单个基因之间都不同。需要应对此类数据异质性的用户友好,准确的注释管道。先前的注释管道Braker1和Braker2分别使用RNA-Seq或蛋白质数据,但并非两者都使用。最近发布的Genemark-ETP进行了进一步的显着改进,整合了所有三种数据类型。我们在这里提出了基于Genemark-Etp和Augustus的Braker3管道,并使用Tsebra Combiner进一步提高了准确性。braker3使用短阅读RNA-Seq和大蛋白数据库的真核基因组中的蛋白质编码基因,以及针对靶标的迭代和专门学习的统计模型。,我们在目标物种蛋白质组与可用蛋白质组的相关性水平下基于11种基因组的新管道。Braker3优于Braker1和Braker2。平均成绩单级别的F1得分平均增加约20个百分点,而对于具有较大和复杂基因组的物种,差异最为明显。Braker3还胜过其他现有工具,Maker2,FunAntotate和Finder。Braker3的代码可在GitHub上获得,作为一个现成的Docker容器,可用于使用Docker或Singularity执行。总体而言,Braker3是真核基因组注释的准确,易于使用的工具。
图1:Braker3管道的示意图。所需的输入是基因组序列,简短读取RNA-seq数据和蛋白质数据库。RNA-Seq数据可以以三种不同的形式提供:在序列读取存档中可用的库的ID(Leinonen等,2010),未对齐的读取或对齐的读取。如果给出了库ID,则Braker3使用SRA工具包(https://trace.ncbi.nlm.nih.gov/traces/traces/sra/sra/sra/sra.cgi?view=software)下载RAW RNA-SEQ,并使用HisAT2(Kim等,2019,2019年)与基因组对齐。使用多个库时也可以使用这些格式的组合。
基因预测长期以来一直是生物信息学研究的活跃领域。仍然,大核基因组中的基因预测提出了一个挑战,必须通过新算法来解决。转录组和蛋白质组可获得的词的数量和意义在基因组,基因甚至单个基因之间都不同。需要应对此类数据异质性的用户友好,准确的注释管道。先前的注释管道Braker1和Braker2分别使用RNA-Seq或蛋白质数据,但并非两者都使用。最近发布的Genemark-ETP进行了进一步的显着改进,整合了所有三种数据类型。我们在这里提出了基于Genemark-Etp和Augustus的Braker3管道,并使用Tsebra Combiner进一步提高了准确性。braker3使用短阅读RNA-Seq和大蛋白数据库的真核基因组中的蛋白质编码基因,以及针对靶标的迭代和专门学习的统计模型。,我们在目标物种蛋白质组与可用蛋白质组的相关性水平下基于11种基因组的新管道。Braker3优于Braker1和Braker2。平均成绩单级别的F1得分平均增加约20个百分点,而对于具有较大和复杂基因组的物种,差异最为明显。Braker3还胜过其他现有工具,Maker2,FunAntotate和Finder。Braker3的代码可在GitHub上获得,作为一个现成的Docker容器,可用于使用Docker或Singularity执行。总体而言,Braker3是真核基因组注释的准确,易于使用的工具。
动机:超过25年,基于学习的真核基因预测因子是由隐藏的马尔可夫模型(HMM)驱动的,这些模型(HMMS)直接输入了DNA序列。最近,Holst等。与他们的程序直升机一起证明,可以通过将深度学习层与单独的HMM后处理器相结合,可以改善Ab Insi算真核基因预测的准确性。结果:我们提出了Tiberius,这是一种新型的基于深度学习的Ab Initio基因预测因子,端到端将卷积和长期的短期记忆层与可区分的HMM层整合在一起。Tiberius使用自定义基因预测损失,并接受了哺乳动物基因组预测的培训,并对人类和两个基因组进行了评估。它显着胜过现有的从头算法,在人类基因组的基因水平下达到62%的F1分数,而下一个最佳AB始于方法的F1得分为21%。在从头模式下,提比略(Tiberius)预测了三个人类基因中两个的外显子内结构,而没有误差。非常明显,即使是Tiberius的Ab从头算精度也匹配Braker3的原始精度,Braker3使用RNA-Seq数据和蛋白质数据库。Tiberius高度平行的模型是最新的基因预测方法,在2小时内处理人类基因组。可用性和实施:https://github.com/gaius-augustus/tiberius contact:{lars.gabriel,mario.stanke}@uni-greifswald.de
