分子表示学习(MRL)长期以来在药物发现和材料科学领域至关重要,并且由于自然语言处理(NLP)和图形神经网络(GNN)的发展,它取得了重大进展。nlp将分子视为一维顺序令牌,而GNN则将它们视为二维拓扑图。基于通过不同的消息传递算法,GNN在检测化学环境和预测分子特性方面具有各种性能。在此,我们提出了定向的图形注意力网络(D-GAT):具有定向键的表达性GNN。我们策略成功的关键是按照指示图处理分子图,并通过缩放的点 - 产物注意机制来更新键状态和原子状态。这使模型可以更好地捕获分子图的子结构,即官能团。与其他GNN或消息传递神经网络(MPNN)相比,D-Gats的表现优于15个重要分子属性预测基准中的13个。
通过定向消息传递利用坐标的图神经网络最近在多个分子特性预测任务中取得了最新进展。然而,它们依赖于通常不可用的原子位置信息,而获取这些信息通常非常昂贵甚至不可能。在本文中,我们提出了合成坐标,使高级 GNN 的使用无需真正的分子配置。我们提出了两种距离作为合成坐标:指定分子配置粗略范围的距离界限,以及使用个性化 PageRank 的对称变体的基于图的距离。为了利用距离和角度信息,我们提出了一种将普通图神经网络转换为定向 MPNN 的方法。我们表明,通过这种转换,我们可以在 ZINC 基准上将普通图神经网络的误差降低 55%。此外,我们通过在 SMP 和 DimeNet ++ 模型中加入合成坐标,在 ZINC 和无坐标 QM9 上取得了最新进展。我们的实现可以在线获得。1
预测氨基酸取代引起的蛋白质热稳定性的变化对于了解人类疾病和工程有用的蛋白质对临床和工业应用至关重要。虽然蛋白质生成模型的最新进展是在以结构或进化序列环境为条件的氨基酸上学习概率分布的,但在没有任务特异性训练的情况下预测各种蛋白质特性方面表现出了令人印象深刻的性能,但其强大的无监督预测能力并未扩展到所有蛋白质功能。尤其是,它们改善蛋白质稳定性预测的潜力仍未得到探讨。在这项工作中,我们提出了一个新颖的深度学习框架,它可以适应和整合两个通用蛋白质生成模型 - 一种蛋白质语言模型(ESM)和一个反折叠模型(ProteinMPNN) - 有效的稳定性预测器。马刺采用轻量级的神经网络模块来将蛋白质MPNN学到的每个残留结构表示形式重新融合到ESM的注意层中,从而为ESM的序列表示学习提供了信息。这种重新布线策略使马刺能够从序列和结构数据中利用进化模式,在这种数据中,ESM所学的序列类似分布的条件是基于由蛋白质MPNN编码的结构先验,以预测突变效应。我们通过在最近发布的Mega规模的热稳定性数据集中进行监督的培训将该集成的框架引导到稳定预测模型。此外,它通过用作提高准确性的稳定性模型来增强当前的低N蛋白适应性预测模型。在12个基准数据集中进行的评估表明,马刺提供了准确,快速,可扩展和可推广的稳定性预测,并且始终超过了当前的最新方法。值得注意的是,马刺在蛋白稳定性和功能分析中表现出显着的多功能性:与蛋白质语言模型结合使用时,它以无监督的方式准确地识别蛋白质功能位点。这些结果突出显示了马刺是推动当前蛋白质稳定性预测和机器学习引导的蛋白质启动工作流程的强大工具。马刺的源代码可在https://github.com/luo-group/spurs上获得。