SARS-CoV-2 病毒已成为 21 世纪最大的流行病,感染人数达数亿,死亡人数达数千万人。世界各地的科学家都在竞相开发疫苗和新药,以战胜这场流行病并为 COVID-19 疾病提供有效的治疗方法。因此,迫切需要更好地了解 SARS-CoV-2 的发病机制如何受到病毒突变的影响,并确定病毒基因组中可作为新疗法稳定靶点的保守片段。在这里,我们介绍了一种文本挖掘方法,可直接从参考(祖先)全基因组序列估计基因组片段的可变性。该方法依赖于根据基因组片段在整个基因组中的空间分布和频率来计算其重要性。为了验证我们的方法,我们对近 80,000 个公开可用的 SARS-CoV-2 前身全基因组序列中的病毒突变进行了大规模分析,并表明这些结果与用于关键字检测的统计方法预测的片段高度相关。重要的是,这些相关性在密码子和基因水平以及基因编码区都成立。使用文本挖掘方法,我们进一步确定了可能成为基于 siRNA 的抗病毒药物候选者的密码子序列。值得注意的是,这项研究中确定的候选者之一对应于刺突糖蛋白表位的前七个密码子,这是唯一一种与人类蛋白质不匹配的 SARS-CoV-2 免疫原性肽。
主要关键词