我们提出ELPREP 5,该5更新ELPREP框架,用于处理使用变体调用的测序对齐/地图文件。ELPREP 5现在可以执行由GATK最佳呼叫的最佳实践所描述的完整管道,该实践由PCR和光学重复标记组成,按坐标顺序排序,基本质量得分重新校准以及使用单倍型呼叫者算法的变体调用。ELPREP 5产生与GATK4相同的BAM和VCF输出,同时通过并行化和合并管道步骤的执行来显着降低运行时。我们的基准测试表明,ELPREP 5在整个exome和全基因组数据上都将变量呼叫管道的运行时加快了,同时使用与GATK4相同的硬件资源。这使ELPREP 5在需要更快的执行时间时,可以合适地替换GATK4。
STAR ( Spliced Transcripts Alignment to a Reference )是用于将 RNA-seq 读取数据与 参考基因组序列进行高度准确和超快速的剪接感知( splice aware ) 比对的工具。注意, STAR 是一个专门针对 RNA-seq 数据映射的比对工具,这意味着不能用于比对 DNA 数据。与 其它的 RNA-seq 比对工具相比,其具有较高的准确率,映射速度较其他比对软件高 50 多 倍。 STAR 在识别经典和非经典剪接位点方面具有很高的精确性,还可以检测到嵌合(融 合)转录本。除了映射短读取数据(例如 ≤ 200 bp ), STAR 还可以准确地映射长读取数据 (例如来自 PacBio 或 Ion Torrent 的数 Kbp 读取数据)。 STAR 在变异检测( SNP 和 INDEL ) 方面具有更好的灵敏度,因此, STAR 被用于 GATK 最佳实践工作流程,用于从 RNA-seq 数据 中识别短变异。
收到2023年8月31日; 2023年12月7日接受;于2024年1月4日出版了作者分支:1麦吉尔大学医学系,蒙特利尔,魁北克H4A 3J1,加拿大; 2个细菌共生体进化,加拿大魁北克H7V 1B7,Inrs-Centre-Centre Armand-FrappierSantéBiotechnologie; 3宾夕法尼亚州立大学宾夕法尼亚州立大学动物科学系16802-3500; 4 McGill International TB Center,McGill University,蒙特利尔,魁北克H4A 3S5,加拿大。*信件:路加·哈里森(Luke B.基于参考的对齐;参考基因组。缩写:AIC,Akaike的信息标准; ATCC,美国类型文化收藏;床,浏览器可扩展数据; GATK,基因组分析工具包; Hal,分层对齐; IGV,综合基因组观众; MRCA,最终的共同祖先; MTBC,结核分枝杆菌复合物; NCBI,国家生物技术信息中心; NGS,下一代测序; PGAP,原核基因组注释管道; PHAST,具有空间/时间模型的系统发育分析; Rd,差异区域; RVD,[H37] RV-DETEATION; SNP,单核苷酸多态性; SRA,序列阅读档案; TBD1,结核分枝杆菌 - 特异性缺失1。数据语句:文章或通过补充数据文件中提供了所有支持数据,代码和协议。本文的在线版本可以使用五个补充表和三个补充数据。001165©2024作者
摘要 - 基因组分析是对基因的研究,其中包括对基因组特征的识别,测量或比较。基因组学研究对我们的社会至关重要,因为它可以用于检测疾病,创建疫苗和开发药物和治疗方法。作为具有大量并行处理能力的一种通用加速器,GPU最近用于基因组学分析。开发基于GPU的硬件和软件框架用于基因组分析正在成为一个有希望的研究领域。为了支持这种类型的研究,需要基准,以具有代表性,并发和多种应用程序的应用程序。在这项工作中,我们创建了一个名为Genomics-GPU的基准套件,其中包含10种广泛使用的基因组分析应用。它涵盖了DNA和RNA的基因组比较,匹配和聚类。我们还调整了这些应用程序来利用CUDA动态并行性(CDP),这是一个支持动态GPU编程的最新高级功能,以进一步提高性能。我们的基准套件可以作为算法优化的基础,也可以促进GPU架构开发进行基因组学分析。索引术语 - 基因组学,生物信息学,基准测试,GPU,加速计算,基因组分析,计算机体系结构。I。研究基因组序列分析是指组织ISM的DNA序列的研究。该程序具有许多重要的应用,例如大流行爆发追踪,早期癌症检测[79],药物发育[43]和遗传疾病鉴定[87]。要通过通过四个字母(A,C,T和G)(也称为碱基或核苷酸)的字符串的形式将DNA分子通过分析生物体的基因组构成分析。确定碱基序列的过程称为基因组测序[30]。比较和发现生物学序列之间差异的过程称为序列比对[67]。过去十年中,基因组数据库的指数增长,需要在计算工具的帮助下进行大量数据。结果,已经开发了几种用于基因组分析的工具,例如BLAST [57]和GATK [58]。为了提高性能,某些基因组测序框架(例如Parasail [31]和KSW2 [53])采用了具有SIMD能力的CPU。他们利用SIMD指令提供的并行性来执行矩阵计算,通过在多个操作数中运行同一矢量命令。FPGASW [39]使用FPGA中的大量执行单元创建线性收缩期