大型Mer集的有效动态数据结构的设计属于中央CHAL -11序列生物信息学的lenges。通过12个简单/频谱的字符串集,紧凑型𝑘 -mer设置表示的最新进展,最终使用蒙版的超弦框架,13个为广泛的范围𝑘-mer集提供了显着空间效率的数据结构。然而,14由于基础15个紧凑型表示的静态性质,执行设置操作的可能性仍然有限。在这里,我们开发了𝑓屏蔽的superStrings,这是一个概念,结合了蒙版的16个SuperSring和自定义的删除功能𝑓以通过字符串17串联启用有效的𝑘 -MER设置操作。结合了用于蒙版SuperSring的FMSI索引,我们通过Burrows-Wheeler Transform合并获得了一个内存效率18𝑘-MER索引,以支撑设置操作。框架19为压迫生物信息学问题提供了一个有希望的理论解决方案,并突出了𝑓屏蔽的超级弦的20个潜力,成为𝑘 -mer集的基本数据类型。21
主要关键词