其中 x 是序列,f(x) 是未知的序列到适应度图。DE 是一种黑盒优化问题,它按顺序查询序列进行实验筛选。贪婪搜索能够有效地用最少的实验找到改进的序列,但由于适应度景观中普遍存在的上位性,它通常仅限于探索局部最优 2 – 4 。另一方面,通过多位点饱和诱变进行随机探索不可避免地会产生庞大的组合文库,这往往会超出筛选能力 5 。一种以最小的实验负担搜索上位性景观的有效策略是十分可取的。过去十年,生物数据的机器学习 (ML)(包括深度学习,DL)算法得到了快速发展 6 – 10 。监督模型可以学习蛋白质与适应度之间的关系,并提供酶活性和选择性3、蛋白质热稳定性11、蛋白质折叠能12、13、蛋白质溶解度14、蛋白质-配体结合亲和力15和蛋白质-蛋白质结合亲和力16的定量预测。由于获取监督标签的成本高昂,自监督蛋白质嵌入已成为蛋白质建模的重要范例。通过对自然进化产生的大量未标记序列数据进行训练,自监督蛋白质嵌入可以捕获序列中大量潜在的生物信息,并将信息传递给下游的监督任务17、18。许多模型架构(如变分
主要关键词