摘要 有关蛋白质结构分配的知识丰富了对蛋白质结构和功能的理解。准确可靠的结构分配数据对于二级结构预测系统至关重要。自 80 年代以来,基于氢键分析和原子坐标几何的各种方法以及随后的机器学习已用于蛋白质结构分配。然而,当蛋白质文件中存在缺失原子时,分配过程变得具有挑战性。我们的模型开发了一个名为 DLFSA 的多类分类器程序,用于使用卷积神经网络 (CNN) 分配蛋白质二级结构元素 (SSE)。一种快速高效的基于 GPU 的并行程序从蛋白质文件中提取片段。这项工作中实现的模型使用蛋白质片段子集进行训练,分别达到 88.1% 和 82.5% 的训练和测试准确率。我们的模型仅使用 C α 坐标进行二级结构分配。该模型也在一些全长蛋白质上成功测试。基于片段的研究结果证明了应用深度学习解决方案解决结构分配问题的可行性。
主要关键词