Loading...
机构名称:
¥ 2.0

采样算法确定性选择K -MER的子集是生物信息学应用程序中重要的构建块。例如,它们用于索引大型文本集合,例如DNA,并快速比较序列。在此类应用中,需要采样算法才能从连续k -mers的每个窗口中选择一个k -mer。民间传说和最常用的方案是随机最小化器,它根据某些随机顺序在窗口中选择最小的k -mer。该方案非常简单且通用,并且具有2 /(W + 1)的密度(预期K -MERS的预期分数)。实际上,较低的密度会导致更快的方法和较小的索引,事实证明,随机最小化器不是最好的最小化器。的确,当K→∞时,已知某些方案像最近引入的mod-Minimizizer(Groot Koerkamp和Pibiri,Wabi 2024)一样接近最佳密度1 /W。在这项工作中,我们研究了在K≤W时达到低密度的方法。在这个小k政权中,一种实用的方法比随机最小化的方法更高的是最小的吸引力(Zheng等人,生物信息学2021)。该方法可以优雅地描述为根据一些随机订单在窗口中对窗口中最小的闭合Sycnmer(Edgar,Peerj 2021)进行采样。我们表明,扩展最小的吸引力更喜欢采样开放的同步器会产生更高的密度。这种新方法 - 开放闭合的最小化器 - 为小k≤W提供了改善的密度,同时要与随机最小化器一样快速计算。与基于de虫集的方法相比,在小K制度中达到非常低密度的方法,我们的方法具有可比的密度,而计算在计算上更简单,直观。此外,我们扩展了mod-dimimizer,以提高任何适合小k的方案的密度,当k> w较大时也可以很好地工作。因此,我们获得了开放闭合的mod-minimizer,这是一种实用方法,可改善所有k的mod-dimimizer。

开放闭合的mod-minimizer算法

开放闭合的mod-minimizer算法PDF文件第1页

开放闭合的mod-minimizer算法PDF文件第2页

开放闭合的mod-minimizer算法PDF文件第3页

开放闭合的mod-minimizer算法PDF文件第4页

开放闭合的mod-minimizer算法PDF文件第5页

相关文件推荐