图2:ESM2预测结构化和无序残基的适应性景观。(a)呈现了人类HP1α蛋白(Uniprot ID:P45973)中氨基酸的ESM2评分,残基的PLDDT得分低于70,以蓝色突出显示,以表示缺乏确定结构的区域。(b)在结构秩序不同程度的三个区域的健身景观的详细观点。在左侧,人类HP1α蛋白的Alphafold2预测的结构以卡通表示显示,其颜色为PLDDT分数。三个特定区域,代表柔性无序(残基75-85),保守无序(残基87-92)和折叠(残基120-130)段,分别用蓝色,橙色和红色突出显示,使用球形粘贴样式。右侧的面板描绘了每个区域中每个区域的ESM2 LLR预测。(c,d)PLDDT和ESM2分布分布的直方图(C)和无序(D)残基。轮廓线表示计算为 - log P(PLDDT,ESM2)的自由能水平,其中P是基于其PLDDT和ESM2分数的残基的概率密度。轮廓以0.5个单位间隔间隔,以区分不同密度的区域。
(a)Spearman在以下比较的层相关性最佳PLM配置相对于每种TL技术(X轴)使用的层,下游的头部和汇总方法(X轴),请进行:(i)AAV采样,(ii)AAV-ONE vs. REST vs. REST,(iii)gb1-three,(iii)gb1-three vs.s vs.s Rest,(iiv)和(IV)vs. vs.-iv vs vs v。 SS3采样。使用了不同的PLM:Proteinbert,Progen2(小,中,Xlarge),ESM2(650m,3b,15b),具有TL策略,包括Fe,Lora,Lora-,Lora-,适配器和适配器。红色虚线表示使用序列OHE训练的基线模型,请参见方法。(b)相对于FT(绿色)和Fe(蓝色)的基线的性能差异百分比。微调始终会产生更大的性能改进,尤其是在更复杂的数据集(如Meltome)中。BoxPlots在任务和TL方法之间显示出绩效增长的可变性。
摘要:抗菌肽(AMP)是新抗生素的有前途的候选者,因为它们针对病原体的广谱活性和对耐药性发展的敏感性降低。深度学习技术,例如深层生成模型,为加快AMP的发现和优化提供了有希望的途径。一个了不起的例子是反馈生成式讽刺网络(FBGAN),这是一个深层生成模型,在训练阶段结合了分类器。我们的研究旨在探索增强分类器对FBGAN生成能力的影响。为此,我们介绍了两个替代分类器的FBGAN框架,都超过了原始分类器的准确性。第一个分类器利用K -MERS技术,而第二个分类器则从大蛋白质语言模型进化量表模型2(ESM2)中应用转移学习。与原始FBGAN相比,将这些分类器整合到FBGAN中,不仅会产生显着的性能增强能力,而且还可以使所提出的生成模型能够实现与Ampgan和Hydramp等既定方法相当甚至优越的性能。这一成就强调了在FBGAN框架内利用高级分类器的有效性,增强了其对从头设计的计算鲁棒性,并与现有文献相当。
已经采用了各种深层生成模型来进行从头功能蛋白的产生。与3D蛋白设计相比,基于序列的生成方法旨在产生具有所需功能的氨基酸序列,由于蛋白质序列数据的丰度和质量以及相对较低的建模复合物,用于训练的氨基酸序列仍然是一种主要方法。通常对这些模型进行培训以匹配训练数据中的蛋白质序列,但每个氨基酸的精确匹配并不总是必不可少的。某些氨基酸的变化(例如,不匹配,插入和删除)可能不一定会导致功能变化。这表明将训练数据的可能性最大化超出氨基酸序列空间,可以产生更好的生成模型。预训练的蛋白质大语言模型(PLM)(例如ESM2)可以将蛋白质序列编码为潜在空间,并可能用作功能验证器。,我们通过模拟优化氨基酸序列空间和源自PLM的潜在空间的可能性,提出了训练功能蛋白序列生成模型。此培训方案也可以看作是一种知识蒸馏方法,该方法在培训过程中动态重新体重样本。我们将方法应用于训练GPT类模型(即自回旋变压器)进行抗微肽(AMP)和苹果酸脱氢酶(MDH)的一代任务。计算实验证实,我们的方法优于各种深层生成模型(例如,没有提出的培训策略的没有提议的培训策略)的各种深层生成模型(例如,生成对抗性净,变异自动编码器和GPT模型),证明了我们多叶型精选策略的有效性。
