本质上无序的蛋白质具有动态结构,它们扮演着关键的生物学作用。阐明其构象合奏是一个具有挑战性的问题,需要综合使用计算和实验方法。分子仿真是用于构建无序蛋白质结构集合但资源密集型的有价值的计算策略。最近,基于深层生成模型的机器学习方法已成为生成结构合奏的有效替代方法。但是,当训练数据中缺乏建模序列和构象时,此类方法当前的可传递性有限。在这里,我们开发了一种新型的生成模型,该模型可实现固有无序蛋白质集合的高水平可传递性。该方法称为IDPSAM,是基于变压器神经网络的潜在扩散模型。它结合了自动编码器,以学习蛋白质几何形状的表示和扩散模型,以在编码空间中采样新型构象。iDPSAM在使用Absinth隐式溶剂模型进行的大型模拟蛋白质区域的模拟数据集上进行了训练。由于其神经网络的表现力及其训练稳定性,Idpsam忠实地捕获了测试序列的3D结构集合,在培训集中没有相似之处。我们的研究还证明了从数据集中产生完全构象合奏的潜力,并强调了训练集大小对概括的重要性。我们认为,IDPSAM通过机器学习代表了可转移蛋白质集合建模的重大进展。
主要关键词