Loading...
机构名称:
¥ 2.0

在未标记的蛋白质数据集上训练的生成模型表明,没有任何特定于任务的训练数据,可以预测某些生物学功能。但是,此功能并未扩展到所有相关功能,在许多情况下,无监督的模型仍然不足以特定于任务,监督的基线。我们假设这是由于基本的“一致性差距”所致,在该差距中,在无监督培训期间所学的规则不能保证与感兴趣的功能有关。在这里,我们演示了如何为蛋白质生成模型提供有用的特定任务信息,而不会失去训练期间学到的丰富的一般知识。使用称为直接偏好优化(DPO)的优化任务,我们通过鼓励模型希望稳定而不是稳定的变体,从而使结构调节的语言模型对齐,以生成稳定的蛋白质序列。我们所产生的模型ProteIndpo是第一个结构条件的语言模型偏好于实验数据。ProteIndpo实现了竞争性稳定性预测,并始终优于该模型的无监督和填充版本。值得注意的是,对齐模型在其训练数据之外的领域也表现良好,以实现大蛋白的绝对稳定性预测和多链复合物的结合亲和力预测,同时还可以实现多种骨干的单步稳定。这些结果表明,ProteIndpo从其生物物理对齐数据中学习了可推广的信息。

通过直接偏好优化将蛋白质生成模型与实验适应性对齐

通过直接偏好优化将蛋白质生成模型与实验适应性对齐PDF文件第1页

通过直接偏好优化将蛋白质生成模型与实验适应性对齐PDF文件第2页

通过直接偏好优化将蛋白质生成模型与实验适应性对齐PDF文件第3页

通过直接偏好优化将蛋白质生成模型与实验适应性对齐PDF文件第4页

通过直接偏好优化将蛋白质生成模型与实验适应性对齐PDF文件第5页

相关文件推荐

2025 年
¥6.0
2022 年
¥1.0
2025 年
¥2.0
2024 年
¥13.0