摘要 摘要背景:准确预测 CRISPR-Cas9 基因组编辑中的脱靶效应对于确保这一强大工具的安全性和有效性至关重要。本研究利用机器学习技术预测脱靶切割位点并研究影响切割效率的潜在机制。通过整合 Tsai 等人和 Kleinsteiver 等人使用 GUIDE-seq 方法的数据,我们旨在增强对影响 CRISPR-Cas9 活性的因素的理解。结果:我们的研究分析了 Tsai 等人和 Kleinsteiver 等人的数据集,将切割效率标准化以与 Tsai 等人的综合数据集保持一致。我们确定了一系列序列特征,包括 PAM 序列类型、核苷酸组成、GC 含量、染色质结构、CpG 岛和基因表达水平。开发并评估了各种机器学习模型,包括人工神经网络、支持向量机、朴素贝叶斯、k-最近邻、逻辑回归和额外树分类器。额外树分类器(尤其是具有类权重的分类器)表现出强大的性能,实现了高准确度、精确度、召回率和 F1 分数。SHAP 分析提供了对特征重要性的洞察,突出了对模型预测有贡献的重要因素。结论:机器学习在预测 CRISPR-Cas9 脱靶效应中的应用显示出在提高基因组编辑精度方面的巨大潜力。我们的研究结果强调了考虑各种序列和基因组特征以改进预测模型的重要性。从这项研究中获得的见解可以为医学、农业和生物技术领域更安全、更有效的基于 CRISPR 的应用的开发提供参考。未来的工作将侧重于进一步完善这些模型并探索它们在不同基因组环境中的适用性。
主要关键词