摘要 由于化学空间的复杂性,从头分子设计是药物发现中的一个关键挑战。随着分子数据集的可用性和机器学习的进步,许多深度生成模型被提出来生成具有所需特性的新分子。然而,现有的大多数模型只关注分子分布学习和基于靶标的分子设计,从而阻碍了它们在实际应用中的潜力。在药物发现中,表型分子设计比基于靶标的分子设计具有优势,特别是在同类首个药物发现中。在这项工作中,我们提出了第一个针对表型分子设计,特别是基于基因表达的分子设计的深度图生成模型(FAME)。FAME 利用条件变分自动编码器框架从基因表达谱中学习条件分布生成分子。然而,由于分子空间的复杂性和基因表达数据中的噪声现象,这种分布很难学习。为了解决这些问题,首先提出了一种采用对比目标函数的基因表达去噪 (GED) 模型来降低基因表达数据中的噪声。然后设计 FAME 将分子视为片段序列并学习以自回归的方式生成这些片段。通过利用这种基于片段的生成策略和去噪的基因表达谱,FAME 可以生成具有高有效率和所需生物活性的新型分子。实验结果表明,FAME 优于现有的表型分子设计方法,包括基于 SMILES 和基于图的深度生成模型。此外,我们研究中提出的降低基因表达数据噪声的有效机制可应用于一般的组学数据建模,以促进表型药物的发现。关键词:片段、条件生成、基因表达、变分自动编码器、对比学习。
主要关键词