DNA测序数据的指数增长需要有效的解决方案,以存储和查询大规模𝑘 -MER集。虽然最近的索引方法使用频谱的弦乐集(SPS),全文索引或哈希,但它们通常会施加结构性约束或需求广泛的参数调整,从而限制了其在不同数据集和数据类型上的可用性。在这里,我们提出了FMSI,这是一种最小的参数,高度空间效率的成员索引和压缩字典,用于任意𝑘 -MER集。fmsi将近似最短的超级弦与蒙面的洞穴 - 轮毂变换(MBWT)结合在一起。与传统方法不同,FMSI在没有预定义的假设上进行操作,而对𝑘 -mer重叠模式则可以利用它们。我们证明,与第二好的竞争对手相比,FMSI比SSHASH,SBWT和CBL等已建立的索引提供了卓越的存储效率,其空间节省最高为2-3倍,具体取决于数据集,𝑘 -MER大小,采样,采样和基因组复杂性,同时支持快速成员和词典成员和义务质量。总体而言,这项工作将基于超弦的索引作为基因组数据的高度通用,灵活且可扩展的方法,并在Pangenomics,宏基因组学和大规模基因组数据库中进行了直接应用。
微生物学家学会的科学家奖,化学与合成生物学协会的生活时间成就奖;选举伦敦皇家生物学会(FRSB)伦敦皇家学会会员,印度真菌学会会员(FMSI),国家生物科学学院会员(FNABS),伦敦学会(FLS)伦敦研究员,印度微生物学会学会,印度微生物学会院士(FMBSI),来自Atviral Resection Society(FMBSI)的生命时期奖项(Aviral Resection Society)(AVRESIDES)(AVRSIDESS)5 REFERSIDES,dressize cormissize corminites,dressize cormandize克斯,有组织研讨会,2个国际会议,2个
大型Mer集的有效动态数据结构的设计属于中央CHAL -11序列生物信息学的lenges。通过12个简单/频谱的字符串集,紧凑型𝑘 -mer设置表示的最新进展,最终使用蒙版的超弦框架,13个为广泛的范围𝑘-mer集提供了显着空间效率的数据结构。然而,14由于基础15个紧凑型表示的静态性质,执行设置操作的可能性仍然有限。在这里,我们开发了𝑓屏蔽的superStrings,这是一个概念,结合了蒙版的16个SuperSring和自定义的删除功能𝑓以通过字符串17串联启用有效的𝑘 -MER设置操作。结合了用于蒙版SuperSring的FMSI索引,我们通过Burrows-Wheeler Transform合并获得了一个内存效率18𝑘-MER索引,以支撑设置操作。框架19为压迫生物信息学问题提供了一个有希望的理论解决方案,并突出了𝑓屏蔽的超级弦的20个潜力,成为𝑘 -mer集的基本数据类型。21
摘要。DNA测序数据的指数增长需要用于新颖的空间算法以进行压缩和搜索。状态的方法通常使用𝑘-Merization进行数据令牌化,但有效地表示和查询𝑘-MER集仍然是一个重要的生物敏化挑战。我们最近的工作介绍了掩盖超弦的概念,该概念紧凑地表示𝑘 -mer集,而无需依赖常见的结构假设。但是,蒙版SuperSrins在设定操作和会员查询中的适用性仍在打开。在这里,我们开发了𝑓屏蔽的SuperString框架,该框架集成了删除功能𝑓,从而通过串联启用有效的𝑘 -MER设置操作。结合了FM索引的量身定制版本,该框架为𝑘mer集提供了多功能,紧凑的数据结构。我们证明了它在FMSI程序中的有效性,与领先的单个𝑘-Mer-mer-set索引方法(如SSHASH和SBWT)相比,在细菌泛基因组上进行评估时,该程序将空间效率提高1.4至4.5。总的来说,我们的工作突出了𝑓屏蔽的超串将其作为用于𝑘mer集的多功能基本数据类型的潜力。