基本化是纳米孔测序分析中的重要步骤,其中将纳米孔测序仪的原始信号转化为核苷酸序列,即读取。最先进的基本收藏家采用复杂的深度学习模型来实现高基本的准确性。这使得基本计算效率低下且渴望记忆,从而瓶颈整个基因组分析管道。对于许多应用,大多数读取都与Interest的参考基因组(即目标参考)不匹配,因此在基因组学管道中的以后步骤中丢弃,浪费了基本的组合。要克服这个问题,我们提出了TargetCall,这是第一个消除基本浪费的计算的预淘汰过滤器。TargetCall的关键想法是丢弃在基本之前与目标参考(即,脱离目标读取)不匹配的读取。TargetCall由两个主要组成部分组成:(1)LightCall,一种轻量级的神经网络基本词,可引起嘈杂的读数; (2)相似性检查通过将它们与目标参考匹配,标记这些嘈杂的每个嘈杂的标记为“目标”或“脱离目标”。Our thorough experimental evaluations show that TargetCall 1) improves the end-to-end basecalling runtime performance of the state-of-the-art basecaller by 3.31 × while maintaining high ( 98.88% ) recall in keeping on-target reads, 2) maintains high accuracy in downstream analysis, and 3) achieves better runtime performance, throughput, recall, pre- cision, and generality compared to prior works.TargetCall可在https://github.com/cmu-safari/targetCall上找到。
主要关键词