详细内容或原文请订阅后点击阅览
多毒素:多类蛋白质毒素分类的基于序列的堆叠集合模型
多毒素:一种基于序列的堆叠集合模型,用于多类蛋白毒素分类,以示意毒素蛋白的结构和功能多样性对于阐明大分子分子行为,机械变异性和结构驱动的生物活性至关重要。传统方法主要集中于二进制毒性预测,从而有限地解决了不同的毒素作用模式。在这里,我们提出了基于分子的作用模式:神经毒素,细胞毒素,血状毒素和肠毒素的分类的多毒素,用于分类毒素蛋白的合奏堆叠框架。我们策划了24,756种蛋白质(20,361毒素和4395个非毒素)的综合数据集,并提取了编码进化,结构和生物化学特征的高维ESM-2嵌入。两层堆叠框架集成了LGBM,MLP,ET,KNN和QDA作为基本分类器,XGBoost作为元分类器。 Multitox的总体准确度为91.07%,F1得分为90.73%,Matthews相关系数(MCC)为91.61%。班级准确性为93.75%(神经毒素),87.79%(细胞毒素),98.80%(血状毒素),97.02%(肠毒素)和95.83%(毒素与非毒素)。基于SHAP的解释和与已知的物理化学描述符的相关性揭示了与结构基序,疏水性和溶剂可及性中生物学上有意义的模式相关的类特异性特征。使用Intersos
来源:Arácnido了解毒素蛋白的结构和功能多样性对于阐明大分子行为,机械变异性和结构驱动的生物活性至关重要。传统方法主要集中于二进制毒性预测,从而有限地解决了不同的毒素作用模式。在这里,我们提出
多诺克斯,一种基于分子的作用方式,用于分类毒素蛋白的合奏堆叠框架:神经毒素,细胞毒素,血状毒素和肠毒素。我们策划了24,756种蛋白质(20,361毒素和4395个非毒素)的综合数据集,并提取了编码进化,结构和生物化学特征的高维ESM-2嵌入。两层堆叠框架集成了LGBM,MLP,ET,KNN和QDA作为基本分类器,XGBoost作为元分类器。 Multitox的总体准确度为91.07%,F1得分为90.73%,Matthews相关系数(MCC)为91.61%。班级准确性为93.75%(神经毒素),87.79%(细胞毒素),98.80%(血状毒素),97.02%(肠毒素)和95.83%(毒素与非毒素)。基于SHAP的解释和与已知的物理化学描述符的相关性揭示了与结构基序,疏水性和溶剂可及性中生物学上有意义的模式相关的类特异性特征。使用Interconsoscan,直系同源物的簇和分泌信号分析的功能注释确定了与折叠,定位和宿主相互作用有关的毒素类特异性签名。我们部署了公共网络服务器(
https://cosylab.iiitd.edu.in/multitox/)实时和批处理模式预测。 Multitox为蛋白质分类提供了可扩展且可解释的框架,并将序列数据与功能洞察力桥接。
Sharma,H.,Thakur,M.S.,Barala,A.,Khan,M.S.,Bhagat,S。,&Bagler,G。(2025)。 Multitox:一种基于序列的多类蛋白质毒素分类的集合模型。
,
327