DNA结合蛋白在不同的生物学过程中至关重要,包括DNA复制,转录,包装和染色质重塑。探索它们的特征和功能已与各种科学领域相关。计算生物学和生物信息学有助于研究DNA结合蛋白,补充了传统的分子生物学方法。虽然机器学习的最新进展使预测系统与生物信息学方法的整合在一起,但仍需要有可推广的管道来将未知蛋白识别为DNA结合,并评估他们识别的特定类型的DNA链。在这项工作中,我们介绍了Rudeus,这是一个python库,其具有层次分类模型,旨在识别DNA结合程序并评估特定的相互作用类型,无论是单链还是双链。Rudeus具有多功能管道,能够训练预测模型,通过监督学习算法协同蛋白质语言模型,并整合贝叶斯优化策略。训练有素的模型具有高性能,DNA结合识别的精确率为95%,单链和双链相互作用之间的辨别率为89%。Rudeus包括一个用于评估未知蛋白序列的探索工具,将其注释为DNA结合,并确定其识别的DNA链的类型。结构性生物信息学管道已被整合到Rudeus中,以通过DNA-蛋白质分子对接验证已鉴定的DNA链。这些全面的策略和直接实施表现出与高端模型的可比性,并增强了将其集成到蛋白质工程管道中的可用性。
主要关键词