蛋白质通过化学相互作用介导其功能;建模通常是通过侧链的这些相互作用是蛋白质设计中的重要需求。但是,构建全原子生成模型需要适当的方案来管理结构和序列中编码的蛋白质的共同连续和离散性质。我们描述了蛋白质结构Protpardelle的全部原子扩散模型,该模型立即将所有侧链状态表示为“叠加”状态;定义蛋白质的叠加叠加在样品产生过程中的单个残基类型和构象中。与序列设计方法结合使用时,我们的模型能够编码全原子蛋白质结构和序列。生成的蛋白质在典型的质量,多样性和新颖性指标下具有良好的质量,而Sidechains则重现了天然蛋白质的化学特征和行为。最后,我们探讨了模型以无主链和无旋转器方式进行全原子蛋白设计和脚手架功能基序的潜力。
蛋白质语言模型是通过对庞大蛋白质序列数据集进行预训练来学习蛋白质表示的强大工具。然而,尽管传统的蛋白质语言模型与蛋白质功能相关,但仍缺乏明确的结构监督。为了解决此问题,我们将远程同源性检测的集成到不需要明确的蛋白质结构作为输入而将结构信息整合到蛋白质语言模型中。我们评估了这种结构信息训练对下游蛋白质功能预测任务的影响。实验结果揭示了EC数量和GO期限预测的功能注释精度的一致提高。在突变数据集上的性能根据目标性质和蛋白质结构之间的关系而变化。这强调了在将结构感知训练应用于蛋白质功能预测任务时考虑这种关系的重要性。代码和模型权重可在https://github.com/ deepgraphlearning/esm-s上找到。
尽管自发现遗传密码(9)以来,无细胞的系统就已经存在,但其产量低,无法正确实施PTM,并且缺乏可伸缩性限制了其主要用于研究实验室的使用。通过克服这些广泛采用的这些关键障碍,像爱丽丝这样的多功能细胞系统开始改变蛋白质生产中的当前范式。实现可伸缩性是朝着这一目标迈出的重要一步。快速合成能力,以及它们大规模表达广泛功能蛋白的能力,无细胞的系统设置为重新定义生物制造。
图2:Evodiff会产生逼真的和结构上的蛋白质序列。(a)用于评估Evodiff序列模型产生的序列的可折叠性和自洽的工作流量。(b-c)可折叠性的分布,通过序列PLDDT的序列(b)的序列PLDT衡量,以及通过scperperxity(C)测量的自谐度,用于测试集,Evodiff模型和基础线的序列(n = 1000个序列;每个模型;盒子图显示Me-Dian和Internetrokile范围)。(d)序列PLDDT与测试集(灰色,n = 1000)和640M参数OADM模型Evodiff-seq(蓝色,n = 1000)的序列相对于scperperxity。(e)从Evodiff-Seq(640m参数OADM模型)中成功表达和表征无条件的世代的结构和指标。omegafold预测,并报告了每个结构的平均PLDDT。%的覆盖率和对最高爆炸击中的%身份在每个设计下面表示。(f)(e)设计序列的圆二色性(CD)光谱。(g)从CD光谱(蓝色)与Omegafold(灰色)推断出的每个序列的结构组成。Alphafold预测包含在图中S6进行比较。
预测氨基酸取代引起的蛋白质热稳定性的变化对于了解人类疾病和工程有用的蛋白质对临床和工业应用至关重要。虽然蛋白质生成模型的最新进展是在以结构或进化序列环境为条件的氨基酸上学习概率分布的,但在没有任务特异性训练的情况下预测各种蛋白质特性方面表现出了令人印象深刻的性能,但其强大的无监督预测能力并未扩展到所有蛋白质功能。尤其是,它们改善蛋白质稳定性预测的潜力仍未得到探讨。在这项工作中,我们提出了一个新颖的深度学习框架,它可以适应和整合两个通用蛋白质生成模型 - 一种蛋白质语言模型(ESM)和一个反折叠模型(ProteinMPNN) - 有效的稳定性预测器。马刺采用轻量级的神经网络模块来将蛋白质MPNN学到的每个残留结构表示形式重新融合到ESM的注意层中,从而为ESM的序列表示学习提供了信息。这种重新布线策略使马刺能够从序列和结构数据中利用进化模式,在这种数据中,ESM所学的序列类似分布的条件是基于由蛋白质MPNN编码的结构先验,以预测突变效应。我们通过在最近发布的Mega规模的热稳定性数据集中进行监督的培训将该集成的框架引导到稳定预测模型。此外,它通过用作提高准确性的稳定性模型来增强当前的低N蛋白适应性预测模型。在12个基准数据集中进行的评估表明,马刺提供了准确,快速,可扩展和可推广的稳定性预测,并且始终超过了当前的最新方法。值得注意的是,马刺在蛋白稳定性和功能分析中表现出显着的多功能性:与蛋白质语言模型结合使用时,它以无监督的方式准确地识别蛋白质功能位点。这些结果突出显示了马刺是推动当前蛋白质稳定性预测和机器学习引导的蛋白质启动工作流程的强大工具。马刺的源代码可在https://github.com/luo-group/spurs上获得。
1设定蛋白质工程目标1 1.1为什么需要设计蛋白质。。。。。。。。。。。。。。。。。。。1 1.2四种类型的蛋白质工程目标。。。。。。。。。。。。。。。。。4 1.3工程蛋白的应用领域。。。。。。。。。。。。。。。。。7 1.3.1医学工程蛋白。。。。。。。。。。。。。。。7 1.3.2农业工程蛋白。。。。。。。。。。。。。。10 1.3.3工业工程蛋白。。。。。。。。。。。。。。。。。。12 1.4 A Exook Fear:蛋白质工程的两种主要策略。。。。。。14词汇表。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。14参考。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15个问题。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 div>17 div>
摘要 摘要 由于人口增长和饮食偏好变化,全球对蛋白质来源的需求不断上升,饲料和食品中传统蛋白质的短缺对粮食安全构成了重大挑战。单细胞蛋白 (SCP) 来源于酵母和细菌等微生物,是传统蛋白质来源的一种有前途的替代品。其中,甲烷氧化菌如甲基球菌属和甲基囊泡菌属可以从甲烷中提供蛋白质作为其唯一的碳和能量来源。像解脂耶氏酵母这样的产油酵母在动物营养方面越来越受到关注,尤其是鸡和水产养殖,因为它们不仅含有蛋白质,还含有脂质。解脂耶氏酵母按细胞重量计算约含有 20% 的脂质,可以有效补充动物饲料中的蛋白质,提高饲料效率和平均日增重 (ADG)。加入 3% 的这种酵母代替豆粕可以提高生长性能,而更高的添加率可能会导致动物(如猪)腹泻等不良影响,因为脂质含量增加,营养消化率降低。解脂耶氏酵母的厚细胞壁会限制营养吸收,这表明可能需要裂解酵母细胞壁以优化营养释放。此外,另一种产油酵母——斯塔克油脂酵母已被证明具有替代鱼类饲料中植物油的潜力,可保持生长和肉质,而不会产生负面影响。研究表明,SCP 可构成牲畜氮摄入量的很大一部分,支持生产性能而不会引起不利的产热。这些发现强调了 SCP 和产油酵母在解决蛋白质短缺问题的同时促进动物营养可持续实践的潜力。然而,进一步的研究对于优化它们在各种饮食配方中的利用至关重要。
摘要:我们最近展示了如何使用在占用间接触映射的空间中使用定向的步道来生成可实现的蛋白质折叠途径;结合反向转换,从蛋白质接触图转变为笛卡尔坐标,我们已经证明了这种方法如何在不求助于分子动力学的情况下产生蛋白质折叠轨迹集合。在本文中,我们证明了该框架可用于研究一个具有挑战性的蛋白质折叠问题,该问题已知可以表现出两种不同的折叠路径,这些折叠路径以前通过分子动力学模拟在几个不同的温度下鉴定出来。从蛋白质折叠机制预测的角度来看,这个特殊问题极具挑战性,特别是涉及沿着由异构二级结构元素定义的不同途径相同的非平凡的紧凑型天然结构折叠。Here, we show how our previously reported contact-map-based protein-folding strategy can be significantly enhanced to enable accurate and robust prediction of heterogeneous folding paths by (i) introducing a novel topologically informed metric for comparing two protein contact maps, (ii) reformulating our graph-represented folding path generation, and (iii) introducing a new and more reliable structural back-mapping algorithm.这些变化提高了生成结构上的折叠中间体的可靠性,并大大减少了我们以前的模拟策略产生的物理无关折叠中间体的数量。最重要的是,我们演示了增强的折叠算法如何成功地识别多染料式式 - pathway蛋白的替代折叠机制,并与直接的分子动力学模拟一致。
摘要:糖合成酶是突变的糖基水解酶,可以在受体糖酮/aglycone基团和活化的供体糖之间合成糖苷键,并具有合适的离开组(例如Azido,Fluoro)。但是,快速检测涉及偶氮糖作为供体糖的糖合酶反应产物的糖合酶反应产物一直具有挑战性。这限制了我们将合理工程和定向演化方法应用于快速筛选的能力,以改善能够合成定制聚糖的聚糖合成酶。在这里,我们概述了我们最近开发的筛查方法,用于使用模型的岩藻合成酶酶快速检测糖合酶活性,该酶设计为活性在岩藻糖基叠氮化物供体糖上。我们使用半随机和随机误差诱发诱变创建了一个多元化的建筑物联合组织突变体库,然后使用我们的小组开发的两种不同的筛选方法来鉴定了具有所需活性的相关的岩体合成酶突变体,以检测糖合酶的活性(即,通过检测在纤维蛋白酸盐反应后的同体形式上检测偶极外形); a)PCYN-GFP调节方法,b)单击化学方法。最后,我们提供了一些概念验证结果,说明了两种筛查方法的实用性,以快速检测涉及氮杂糖作为捐助者组的糖合酶反应的产物。