通信:Wei Wang,电子邮件地址:wei-wang@ucsd.edu抽象抗体治疗候选者不仅必须与其目标表现出紧密的结合,还必须表现出良好的发展性能,尤其是免疫原性的风险。在这项工作中,我们将一种简单的生成型Sam拟合到600万人重和七千万人类轻型连锁店。我们表明,由模型计算出的序列的概率与其他物种在各种基准数据集上与其他模型中的任何其他模型相同或更高的精度区分了具有相同或更高准确性的序列,比文献中的任何其他模型都超过了大型语言模型(LLMS)。SAM可以人性化序列,生成新序列和人类的得分序列。它既快速又完全可解释。我们的结果强调了使用简单模型作为蛋白质工程任务的基准的重要性。我们还引入了一种用于编号抗体序列的新工具,该工具比文献中现有工具更快。这两个工具均可在https://github.com/wang-lab-ucsd/antpack上获得。引言良好的开发性能(例如免疫原性的低风险)对于抗体治疗候选者至关重要1-3。从接种动物中检索的抗体构成人类免疫原性的高风险,因此必须被人性化,例如通过将CDR区域“嫁接”到人类框架4。这种方法经常需要进一步的试用和错误修改才能恢复失去的亲和力4。理想情况下,这些方法应至少具有四个特征。人性化抗体序列的计算方法有可能加速这一过程5。1)分配区分人类和非人类变量区域序列的得分。2)提出可能使序列人性化的突变。3)生成新的高度人类可变区域序列,这对于机器学习辅助抗体发现的方法很有用。4)该方法应充分解释,即可以确定序列的不同区域对得分的贡献。已经提出了用于生成人类序列,分析曲目数据以及评分或人性化序列的各种计算机方法,但通常缺乏这些特征中的一种或多种。Prihoda等人报告了OASIS模型,该模型将输入序列分为9-mers,并通过人口中的患病率分为9-mers 7。他们分别训练大型语言模型(LLM)提出人性化突变。OASIS模型假定序列中所有9人之间的统计独立性,这可能是不现实的。另外,虽然绿洲模型是完全可解释的,但LLM无法完全解释为什么建议给定突变。诸如Immunesim 11和Igor 12的工具来分析曲目数据。其他各种作者已经训练了LLMS,可以按顺序预测下一个氨基酸,或者是掩盖的氨基酸的身份9,10,13。虽然一些LLM(例如尽管这些工具对于数据分析非常有用,但并非旨在模拟人类曲目中序列的分布,因此并非旨在评估序列的人性。llms可以生成新的序列并将得分分配给现有序列(可能性或假性时期),该序列可能与某些感兴趣的特性相关。progen2-oas)9接受了来自多种物种的数据的培训,因此无法评估人类(例如iglm)10在物种标签上进行调节,因此原则上应该能够将人类的重链与其他物种的重链区分开。这些模型的黑框性质使得很难确定该模型“学到了”或评估预测的可靠性。其他作者已经训练了分类器,可以预测序列是否是人类,包括ABLSTM 8,抗纤维13(可以作为物种分类器运行的LLM)和Hu-Mab 5,8。分类器可以实现训练集中存在的物种的高精度,但是如果被要求得分更多的序列,则可能会失去准确性。例如,Marks等人。请注意,Hu-mab最佳用于人性化鼠起源序列,仅是因为它主要在人类和小鼠序列上进行了训练5。分类器不是生成模型,也不直接生成