在抗体序列和结构上训练的生成模型在推进机器学习辅助抗体工程和药物疾病方面具有巨大的潜力。当前的最新模型主要使用两类中的计算机指标:基于序列的指标,例如氨基酸恢复(AAR)和基于结构的指标,包括根均值 - 平方 - 平方偏差(RMSD),预贴紧的对齐误差(PAE)和界面预测模型模型(IPTM)。尽管已证明PAE和IPTM等指标是实验成功的有用过滤器,但没有证据表明它们适合排名,尤其是用于抗体序列设计。此外,尚未建立基于可靠的基于序列的度量。在这项工作中,使用来自七个不同数据集的现实世界实验数据,我们广泛基准了一系列生成模型,包括LLM式,基于扩散的基于扩散和基于图形的模型。我们表明,来自这些生成模型的对数可能与经验测量的结合亲和力很好地相关,这表明对数可能是对抗体序列设计进行排名的可靠度量。此外,我们通过在大型多样的合成数据集上训练基于扩散的模型之一,从而显着增强了其预测和评分结合亲和力的能力。我们的实施可用:https://github.com/astrazeneca/diffabxl
主要关键词