与AI一起,研究人员预测了人类细胞中任何蛋白质的位置

一种位于细胞错误部分的蛋白质可以导致多种疾病,例如阿尔茨海默氏症,囊性纤维化和癌症。但是,单个人类细胞中大约有70,000种不同的蛋白质和蛋白质变体,并且由于科学家通常只能在一个实验中测试少数几个,因此手动识别蛋白质的位置非常昂贵且耗时。

来源:英国物理学家网首页
幼崽学习有意义的蛋白质和细胞表示。 (a)计算与12,614个基因相对应的40,622个蛋白质成型的序列表示。左图是所有40,622个蛋白基的可视化,每种蛋白质都通过其在HPA中的定位注释而着色。右面板是在构成核质,细胞质或两者兼而有之的保留1中蛋白质子集的可视化。学分:Biorxiv(2024)。 doi:10.1101/2024.07.25.605178
Biorxiv

一种位于细胞错误部分的蛋白质可以导致多种疾病,例如阿尔茨海默氏症,囊性纤维化和癌症。但是,单个人类细胞中大约有70,000种不同的蛋白质和蛋白质变体,并且由于科学家通常只能在一个实验中测试少数几个,因此手动识别蛋白质的位置非常昂贵且耗时。

新一代的计算技术试图使用机器学习模型简化该过程,这些模型通常利用包含数千种蛋白质及其位置的数据集,这些数据集在多个单元线上测量。此类数据集之一是人类蛋白质地图集,该地图集在40多个细胞系中分类了13,000多种蛋白质的亚细胞行为。但是,尽管如此,人类蛋白质地图集仅探索了数据库中所有蛋白质和细胞系的所有可能配对的0.25%。

机器学习模型 超过40个细胞系中的13,000个蛋白质

现在,麻省理工学院,哈佛大学和广泛研究所的研究人员开发了一种新的计算方法,可以有效地探索其余未知的空间。他们的方法可以预测任何蛋白质在任何人类细胞系中的位置,即使蛋白质和细胞从未进行过测试。

该论文发表在Biorxiv预印式服务器上。

已发布

合作模型

为了克服这些局限性,研究人员创建了一种预测未见蛋白质的亚细胞位置的两部分方法,称为幼崽。

单元线