摘要 动机 在序列中寻找概率基序是注释假定转录因子结合位点 (TFBS) 的常见任务。有用的基序表示包括位置权重矩阵 (PWM)、双核苷酸 PWM (di-PWM) 和隐马尔可夫模型 (HMM)。双核苷酸 PWM 结合了 PWM 的简单性(矩阵形式和累积评分函数),但也加入了基序中相邻位置之间的依赖关系(不同于忽略任何依赖关系的 PWM)。例如,为了表示结合位点,HOCOMOCO 数据库提供了来自实验数据的 di-PWM 基序。目前,两个程序 SPRy-SARUS 和 MOODS 可以在序列中搜索 di-PWM。结果 我们提出了一个 Python 包 dipwmsearch,它为这项任务提供了一种原创且高效的算法(它首先枚举 di-PWM 的匹配词,然后立即在序列中搜索它们,即使它包含 IUPAC 代码)。用户可以通过 Pypi 或 conda 轻松安装,使用文档化的 Python 界面和可重复使用的示例脚本,从而顺利使用 di-PWM。可用性和实施:dipwmsearch 可在 https://pypi.org/project/dipwmsearch/ 和 https://gite.lirmm.fr/rivals/dipwmsearch/ 下根据 Cecill 许可获得。
主要关键词