获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
多个序列比对(MSA)在揭示蛋白质家族的进化轨迹方面起着关键作用。对于缺乏足够同源信息来构建高质量MSA的蛋白质序列通常会损害蛋白质结构预测的准确性。尽管已经提出了在这些条件下生成虚拟MSA的各种方法,但它们在全面捕获MSA中的复杂共同进化模式或需要外部Oracle模型的指导方面缺乏。在这里,我们介绍了MSAGPT,这是一种通过低MSA制度中MSA生成预训练提示蛋白质结构预测的新型方法。MSAGPT采用一种简单而有效的2D进化位置编码方案来对复杂的进化模式进行建模。在此赋予其灵活的1D MSA解码框架中,有助于零或几次学习。更重要的是,我们证明了利用AlphaFold2的反馈可以通过拒绝微调(RFT)和AF2反馈(RLAF)的增强学习来进一步增强模型的能力。广泛的实验证实了MSAGPT在生成忠实的虚拟MSA增强结构预测准确性方面的功效(在几乎没有射击的情况下高达 +8.5%TM得分)。转移学习能力还突出了其促进其他蛋白质任务的巨大潜力。