摘要:我将提供有关FoldSeek的更新,该更新可以通过Uniprot50进行结构相似性搜索和对齐方式,并在几秒钟内以与Tmalign相似的灵敏度(search.foldseek.com),在几秒钟内,在几秒钟内,在几秒钟内,在几秒钟内通过Uniprot50进行结构相似性搜索和对齐。的核心是我们使用离散的变异自动编码器学到的3I结构字母。i还将提出SpaceDust,这是一种基于基因组和企鹅之间“位置直系同源物”簇的快速序列和基于结构的搜索工具,这是我们新的应变分辨的病毒元组汇编器。
蛋白质结构是超出序列的保守,这使得多重结构比对(MSTA)对于分析远距离相关的蛋白质必不可少。计算预测方法已大大扩展了我们可用蛋白质结构的存储库,需要快速准确的MSTA方法。在这里,我们介绍了一种渐进式MSTA方法,该方法利用了成对结构对准器Foldseek的结构字母,用于多次对齐数十万个蛋白质结构。foldmason计算置信度得分,提供交互式可视化,并在准确的结构预测时代提供了大规模蛋白质结构分析的必要速度和准确性。使用flaviviridae糖蛋白,我们证明了Foldmason的MSTAS如何支持暮光区下方的系统发育分析。foldmason是免费的开源软件:foldmason.foldseek.com和web服务器:search.foldseek.com/foldmason。
另一方面,生物学仍然主要使用传统工具。BLAST 和隐马尔可夫模型在搜索大型蛋白质序列数据库方面有着悠久的使用历史,这些数据库通过残基重叠和基于比对的特征进行评分。基于结构的方法,例如 DALI ( Holm ,2020 ) 和 TM-align ( Zhang & Skolnick ,2005 ) 长期以来一直具有更高的灵敏度来查找远程同源物,但由于其速度和可用蛋白质结构的数量而难以获得更广泛的采用。随着 AlphaFold2 ( Jumper et al. ,2021 ) 等精确蛋白质结构预测方法的出现,使用以前的工具搜索同源结构已变得几乎站不住脚。基于深度学习的方法,例如 Foldseek(van Kempen 等人,2023 年)、TM-vec(Hamamsy 等人,2022 年)、SMAMPNN(Trinquier 等人,2022 年)、Progres(Greener & Jamali,2022 年)一直试图弥补这一差距,但尚无法与 DALI 的灵敏度或序列搜索的速度相媲美(Steinegger & S¨oding,2017 年)。
考虑到局部几何形状[5],坐标对齐[6]和3D Zernike的描述符[7,8],已经开发了多种方法来比较,对齐和搜索[1] [1] [1] [2,3,4]。由于蛋白质结构比序列[9]更保守[9],这些方法已被证明在远程同源性检测[10],蛋白质分类[11]中有用[11],从结构[12]推断功能[12],聚类大数据库[13,14]并评估结构预测的准确性。最高的精度方法倾向于根据DALI等坐标[3]进行仔细的比较,但是搜索大型结构数据库,例如Alphafold蛋白结构数据库[15,16]或ESM宏基因组图[17] [17]使用这些方法很慢。最近,foldseek [18]通过将一级序列转换为一系列学到的局部特长基序来解决了这个问题。然后,它使用生物信息学中快速序列搜索的丰富历史记录大大减少查询的成对比较时间与数据库的每个成员。为了进一步减少搜索时间,应更快地将成对比较步骤进行。
蛋白质序列相似性搜索是基因组学研究的基础,但是当前方法通常无法考虑可以指示蛋白质功能的关键基因组环境信息,尤其是在微生物系统中。在这里,我们提出了Gaia(基因组AI注释器),这是一个序列注释平台,可在基因组数据集跨基因组数据集进行快速,上下文感知的蛋白质序列搜索。Gaia利用GLM2是一种在氨基酸序列及其基因组邻域训练的混合模式基因组语言模型,以生成整合序列结构 - 膜片信息的嵌入。这种方法允许识别在保守的地理环境中发现的功能相关基因,仅传统序列或基于结构的搜索可能会错过。GAIA可以实时搜索来自131,744个微生物基因组的超过8500万蛋白簇(定义为90%序列身份)的策划数据库。我们将基于GLM2嵌入的搜索的序列,结构和上下文灵敏度与MMSEQS2和FOLDSEEK等现有工具的序列,上下文灵敏度进行了比较。我们展示了噬菌体尾蛋白和铁载体合成基因座的基本发现,这些发现以前很难用传统工具注释。Gaia搜索可在https://gaia.tatta.bio上免费获得。