基于AI的搜索引擎可以帮助研究人员在数据档案中找到新的化学反应

在Zelinsky有机化学研究所与Skoltech之间的联合项目中,由RAS院士瓦伦丁·阿纳尼科夫(Valentin Ananikov)领导的研究小组开发了一种独特的基于机器学习的搜索引擎,用于分析大量高分辨率质谱数据。机器学习允许在没有新实验的情况下探索累积数据的Terabyt。该算法可以加速寻找新化合物,降低成本并使研究更加环保。

来源:英国物理学家网首页
搜索引擎管道的描述。首先,发动机将发动机作为输入分子公式和搜索离子的电荷。它们可以使用假设生成方法(通过基于片段的或大语言模型,LLM,指导方法)或手动(a)源自反应系统。然后,它搜索包含每个输入离子(b)两个最丰富的同位素峰的所有光谱文件。峰值以其质量与电荷比表示-M/z。这些光谱文件称为候选人。为它们计算余弦距离阈值(C1)。然后,为所有候选质谱(C2)执行了一种通过输入公式搜索同位素分布的算法。额外的机器学习(ML)模型试图减少误报搜索答案的数量(C3)。学分:自然通讯(2025)。 doi:10.1038/s41467-025-56905-8
a b m/z C1 C2 C3 自然通讯

在Zelinsky有机化学研究所与Skoltech之间的联合项目中,由RAS院士瓦伦丁·阿纳尼科夫(Valentin Ananikov)领导的研究小组开发了一种独特的基于机器学习的搜索引擎,用于分析大量高分辨率质谱数据。机器学习允许在没有新实验的情况下探索累积数据的Terabyt。该算法可以加速寻找新化合物,降低成本并使研究更加环保。

该研究发表在《自然传播》中。

研究 机器学习 化合物 科学文献 有机合成 分析化学 无机化学

新的解决方案为化学研究开辟了新的可能性。搜索引擎能够分析来自化学不同领域的数据,从而发现新反应,催化剂和机制。现有数据的使用不仅加速了科学进步,还可以降低实验成本,从而使科学更加环保。

更多信息: 期刊信息: