碱基调用是纳米孔测序分析中的一个重要步骤,其中纳米孔测序仪的原始信号被转换成核苷酸序列,即读取。最先进的碱基调用器使用复杂的深度学习模型来实现高碱基调用准确性。这使得碱基调用在计算上效率低下且耗费内存,成为整个基因组分析流程的瓶颈。然而,对于许多应用而言,大多数读取与感兴趣的参考基因组(即目标参考)不匹配,因此在基因组学流程的后续步骤中被丢弃,浪费了碱基调用计算。为了解决这个问题,我们提出了 TargetCall,这是第一个预碱基调用过滤器,以消除碱基调用中浪费的计算。TargetCall 的主要思想是在碱基调用之前丢弃与目标参考不匹配的读取(即脱靶读取)。 TargetCall 由两个主要组件组成:(1) LightCall,一种产生噪声读取的轻量级神经网络碱基调用器,以及 (2) 相似性检查,它通过将这些噪声读取与目标参考进行匹配,将每个噪声读取标记为在靶或脱靶。我们彻底的实验评估表明,TargetCall 1) 将最先进的碱基调用器的端到端碱基调用运行时性能提高了 3.31 倍,同时在保持目标读取方面的高 (98.88%) 召回率,2) 在下游分析中保持高准确率,以及 3) 与以前的工作相比,实现了更好的运行时性能、吞吐量、召回率、准确率和通用性。TargetCall 可在 https://github.com/CMU-SAFARI/TargetCall 获得。
基本化是纳米孔测序分析中的重要步骤,其中将纳米孔测序仪的原始信号转化为核苷酸序列,即读取。最先进的基本收藏家采用复杂的深度学习模型来实现高基本的准确性。这使得基本计算效率低下且渴望记忆,从而瓶颈整个基因组分析管道。对于许多应用,大多数读取都与Interest的参考基因组(即目标参考)不匹配,因此在基因组学管道中的以后步骤中丢弃,浪费了基本的组合。要克服这个问题,我们提出了TargetCall,这是第一个消除基本浪费的计算的预淘汰过滤器。TargetCall的关键想法是丢弃在基本之前与目标参考(即,脱离目标读取)不匹配的读取。TargetCall由两个主要组成部分组成:(1)LightCall,一种轻量级的神经网络基本词,可引起嘈杂的读数; (2)相似性检查通过将它们与目标参考匹配,标记这些嘈杂的每个嘈杂的标记为“目标”或“脱离目标”。Our thorough experimental evaluations show that TargetCall 1) improves the end-to-end basecalling runtime performance of the state-of-the-art basecaller by 3.31 × while maintaining high ( 98.88% ) recall in keeping on-target reads, 2) maintains high accuracy in downstream analysis, and 3) achieves better runtime performance, throughput, recall, pre- cision, and generality compared to prior works.TargetCall可在https://github.com/cmu-safari/targetCall上找到。