摘要背景:为避免脱靶效应,越来越多具有更高特异性的Cas9变体被开发出来,这带来了大量的实验数据。传统的机器学习在这些数据集上表现不佳,而基于深度学习的方法往往缺乏可解释性,这使得研究人员不得不在准确性和可解释性之间做出权衡。有必要开发一种方法,不仅在性能上可以与基于深度学习的方法相匹配,而且具有良好的可解释性,可以与传统的机器学习方法相媲美。结果:为了克服这些问题,我们提出了一种基于深度学习的本质上可解释的方法来预测靶向活性,称为AttCRISPR。AttCRISPR的优势在于使用集成学习策略将可用的基于编码的方法和基于嵌入的方法堆叠在一起,具有很强的可解释性。与使用WT-SpCas9,eSpCas9(1.1),SpCas9-HF1数据集的现有技术方法相比,AttCRISPR在几个公共数据集上分别可以达到0.872、0.867、0.867的平均Spearman值,优于这些方法。此外,得益于两个注意模块——一个是空间注意模块,一个是时间注意模块,AttCRISPR具有良好的可解释性。通过这些模块,我们可以在全局和局部层面理解AttCRISPR做出的决策,而无需其他事后解释技术。结论:通过训练后的模型,我们在全局层面揭示了每个数据集中sgRNA(短向导RNA)序列上每个位置依赖性核苷酸的偏好。而在局部层面,我们证明了AttCRISPR的可解释性可用于指导研究人员设计具有更高活性的sgRNA。