曾经被认为是中性的同义突变,现在被认为对多种疾病,尤其是癌症具有重要意义。必须在人类癌症中识别这些驱动程序的同义突变是必不可少的,但是当前方法受数据限制的约束。在这项研究中,我们最初研究了基于序列特征的影响,包括DNA形状,物理化学特性和核苷酸的一式编码以及基于BERT的预训练的化学分子语言模型的深度学习衍生特征。随后,我们提出了EPEL,这是使用集合学习的同义突变的效应预测指标。EPEL结合了五个基于树的模型,并优化了效率选择,以提高预测精度。值得注意的是,从化学分子中掺入DNA形状的效果和深度学习的特征代表了评估同义突变对癌症的影响的开创性效果。与现有的最新方法相比,EPEL在独立的测试数据集上展示了出色的性能。此外,我们的分析揭示了各种癌症类型的效果评分与患者结局之间的显着相关性。有趣的是,虽然深度学习方法在其他领域显示出希望,但其DNA序列表示并不能显着增强本研究中驾驶员同义突变的识别。总体而言,我们预计EPEL将促进研究人员更精确地靶向驱动器同义词突变。EPEL的用户友好网络服务器可在http://ahmu.epel.bio/上获得。EPEL的设计具有灵活性,使用户可以重新训练预测模型,并为人类癌症中的同义突变产生效果分数。
主要关键词