分子表示学习(MRL)是机器学习对化学的有力贡献,因为它将分子转换为数值表示,这对于多样化的下游应用(例如财产预测和药物设计)至关重要。MRL在蛋白质和一般生物分子方面取得了巨大的成功,但尚未探索它在糖离和糖材料的生长领域(碳水化合物的研究和设计)中的碳水化合物。这种不足的探索主要归因于全面且策划良好的碳水化合物特异性数据集的可用性有限,并且缺乏机器学习(ML)技术,以解决碳水化合物数据带来的独特问题。解释和注释碳水化合物数据通常比蛋白质数据更复杂,需要大量的领域知识。此外,现有的MRL方法主要针对蛋白质和小生物分子进行了优化,并且对于没有特殊修饰的碳水化合物应用可能不有效。为了应对这一挑战,加速了糖基础和糖原的进展,并丰富了ML社区的数据资源,我们介绍了GlyConmr。GlyConMR包含两个富有费用的数据集,这些数据集具有2,609个碳水化合物结构和211,543个注释的核磁共振(NMR)原子级化学移位,可用于训练ML模型以进行精确原子级预测。我们量身定制了一组碳水化合物特异性的功能,并适应了现有的基于3D的图形神经网络,以解决有效预测NMR变化的问题。为了进行插图,我们在甘康MR上基准了这些经过修改的MRL模型。NMR数据是开发ML技术以促进糖性和糖材料研究的最具吸引力的起点之一,因为NMR是碳水化合物结构研究中的杰出技术,而生物分子结构是功能和特性的预测因素。
主要关键词