摘要 - 基因组学是精密医学,全球粮食安全和病毒监测的基础。精确匹配是在基因组学的几乎每个步骤中广泛使用的操作之一,例如对齐,组装,注释和相互作用。现代基因组学采用Ferragina-Manzini指数(FM-索引)增强空间 - 有效的Burrows-Wheeler-Wheeler-Wheeler-Wheeler-Wheeler-Wheeler-Wheeler-Wheeler Transform(BWT),并具有其他数据结构,以允许超快速的精确匹配操作。但是,FM索引因其空间局部性和随机内存访问模式而臭名昭著。先前的工作创建GPU-,FPGA-,ASIC-甚至是基于内存过程(PIM)的加速器,以增强FM-Index搜索吞吐量。尽管他们实现了最新的FM索引搜索吞吐量,但与所有先前的常规加速器相同,但在每个DRAM行激活后仅处理一个DNA符号,因此仅处理一个DNA符号,从而遭受了记忆带宽利用率不佳。在本文中,我们提出了一个硬件加速器EXMA,以增强FM-Index搜索吞吐量。我们首先创建一个具有多任务学习(MTL)基于多任务的索引的新型EXMA表,以在每个DRAM行激活中处理多个DNA符号。然后,我们构建一个加速器以在EXMA表上进行搜索。我们提出了2阶段的安排,以提高加速器的高速公路命中率。我们介绍了动态页面策略,以提高DRAM主内存的行缓冲区命中率。我们还提出链条压缩,以减少EXMA表的数据结构大小。与最新的FM索引PIM相比,EXMA将搜索吞吐量提高了4。9倍,并增强每瓦4瓦搜索吞吐量。8×。 索引术语 - 特定于硬件加速器,ge- sickics,精确匹配8×。索引术语 - 特定于硬件加速器,ge- sickics,精确匹配
主要关键词