Loading...
机构名称:
¥ 2.0

蛋白质是所有细胞过程的关键,其结构对于理解其功能和进化很重要。基于蛋白质结构的基于序列的预测在精度1中增加了,超过214)在Alphafold数据库2中可用预测结构。但是,在此规模上研究蛋白质结构需要高度焦虑的方法。在这里,我们开发了一个基于结构对齐的聚类算法4foldseek cluster4that可以群集数亿个结构。使用此方法,我们聚集了Alphafold数据库中的所有结构,识别2.30)百万个非辛氏结构簇,其中31%缺乏代表可能先前未描述过结构的注释。没有注释的群集往往很少有代表覆盖Alphafold数据库中所有蛋白质的4%。进化分析表明,大多数簇的起源都是古老的,但似乎有4%是物种,代表了较低的质量预测或从头基因出生的示例。我们还展示了如何使用结构比较来预测领域家庭及其关系,从而确定了远程结构相似性的示例。在这些分析的基础上,我们确定了与原核生物中假定的远程同源性人类免疫相关蛋白质的几个例子,这说明了该资源对研究蛋白质功能和生命树的进化的价值。

在已知蛋白质宇宙的尺度上预测的结构

在已知蛋白质宇宙的尺度上预测的结构PDF文件第1页

在已知蛋白质宇宙的尺度上预测的结构PDF文件第2页

在已知蛋白质宇宙的尺度上预测的结构PDF文件第3页

在已知蛋白质宇宙的尺度上预测的结构PDF文件第4页

在已知蛋白质宇宙的尺度上预测的结构PDF文件第5页

相关文件推荐

2020 年
¥12.0