蛋白质序列相似性搜索是基因组学研究的基础,但是当前方法通常无法考虑可以指示蛋白质功能的关键基因组环境信息,尤其是在微生物系统中。在这里,我们提出了Gaia(基因组AI注释器),这是一个序列注释平台,可在基因组数据集跨基因组数据集进行快速,上下文感知的蛋白质序列搜索。Gaia利用GLM2是一种在氨基酸序列及其基因组邻域训练的混合模式基因组语言模型,以生成整合序列结构 - 膜片信息的嵌入。这种方法允许识别在保守的地理环境中发现的功能相关基因,仅传统序列或基于结构的搜索可能会错过。GAIA可以实时搜索来自131,744个微生物基因组的超过8500万蛋白簇(定义为90%序列身份)的策划数据库。我们将基于GLM2嵌入的搜索的序列,结构和上下文灵敏度与MMSEQS2和FOLDSEEK等现有工具的序列,上下文灵敏度进行了比较。我们展示了噬菌体尾蛋白和铁载体合成基因座的基本发现,这些发现以前很难用传统工具注释。Gaia搜索可在https://gaia.tatta.bio上免费获得。
主要关键词