由于其内在特性,DNA分子通常沿线性序列表示表现出远距离相互作用。因此,当建模DNA序列对于获得更准确的基于序列的推断很重要。最近为此目的开发了许多深度学习方法,但它们仍然遭受两个主要问题的困扰。首先,现有的方法只能handle短DNA片段,从而失去更长的范围相互作用。第二,当前方法需要大量的监督标签,同时错过序列中的大多数订单信息。因此,有必要开发有效的深度神经网络建模框架,以提取广泛的上下文信息,以实现基于序列的推理任务。我们的新框架(名为Revolution)将完整的DNA序列作为输入,无需任何凝结,可以对高达10KBP的DNA序列进行准确的预测。在变异效应预测中,我们的方法平均在49种人体组织中增加了接收器工作特征(AUROC)下的面积19.61%。革命还通过预测开放染色质区域(OCR)的平均为2.36%的AUROC来提高植物序列的作用。可以在https:// github上自由访问数据,模型和代码。com/wiedersehne/Revolution-dnapretraining。
主要关键词