动机:开发针对目标蛋白质的新型化合物是制药行业最重要的任务之一。深度生成模型已应用于靶向分子设计并显示出有希望的结果。最近,靶向特定分子的生成被视为蛋白质语言和化学语言之间的翻译。然而,这种模型受到相互作用的蛋白质-配体对的可用性的限制。另一方面,大量未标记的蛋白质序列和化学化合物可用,并已用于训练学习有用表示的语言模型。在本研究中,我们建议利用预训练的生化语言模型来初始化(即热启动)靶向分子生成模型。我们研究了两种热启动策略:(i)单阶段策略,其中初始化模型在靶向分子生成上进行训练(ii)两阶段策略,包含对分子生成的预微调,然后进行靶向特定训练。我们还比较了两种生成化合物的解码策略:波束搜索和采样。结果:结果表明,热启动模型的性能优于从头开始训练的基线模型。就基准中广泛使用的指标而言,两种提出的热启动策略取得了相似的结果。但是,对许多新型蛋白质的生成化合物进行对接评估表明,单阶段策略比两阶段策略具有更好的泛化能力。此外,我们观察到,在评估化合物质量的对接评估和基准指标方面,波束搜索都优于抽样。可用性和实施:源代码可在 https://github.com/boun-tabi/biochemical-lms-for-drug-design 获得,材料(即数据、模型和输出)存档在 Zenodo 中,网址为 https://doi.org/10.5281/zenodo.6832145 。
主要关键词