蛋白质序列相似性搜索是基因组学研究的基础,但是当前方法通常无法考虑可以指示蛋白质功能的关键基因组环境信息,尤其是在微生物系统中。在这里,我们提出了Gaia(基因组AI注释器),这是一个序列注释平台,可在基因组数据集跨基因组数据集进行快速,上下文感知的蛋白质序列搜索。Gaia利用GLM2是一种在氨基酸序列及其基因组邻域训练的混合模式基因组语言模型,以生成整合序列结构 - 膜片信息的嵌入。这种方法允许识别在保守的地理环境中发现的功能相关基因,仅传统序列或基于结构的搜索可能会错过。GAIA可以实时搜索来自131,744个微生物基因组的超过8500万蛋白簇(定义为90%序列身份)的策划数据库。我们将基于GLM2嵌入的搜索的序列,结构和上下文灵敏度与MMSEQS2和FOLDSEEK等现有工具的序列,上下文灵敏度进行了比较。我们展示了噬菌体尾蛋白和铁载体合成基因座的基本发现,这些发现以前很难用传统工具注释。Gaia搜索可在https://gaia.tatta.bio上免费获得。
当研究人员收集单细胞数据并将其细化为细胞图谱时,一项关键任务是对每种细胞类型进行表征和标记或注释。“这通常是一项非常耗时、繁重的任务,只有少数生物学专家才能完成,”计算生物学家、麻省理工学院和哈佛大学布罗德研究所 HCA 细胞注释平台负责人 Evan Biederstedt 说。研究人员已经开发了几种自动标记细胞的程序,但这些工具并不总是能得出相同的答案。popV 就是个例子。它的功能简单但功能强大:它将八种自动细胞注释工具整合到一个平台中,并且可以在有更多工具可用时添加 1 。“这是一个加速工具,”联合开发者、加州大学伯克利分校的计算生物学家 Can Ergen 说。拥有新鲜生成的单细胞 RNA 测序数据的研究人员可以将其加载到 popV 中,八种方法中的每一种都会对细胞身份进行“投票”——因此该工具的全名是 popular Vote。对于任何给定的细胞,用户可以检查所有八种注释是否一致,或者对可能的身份是否存在分歧投票。如果这些方法对某种细胞类型的判定一致,研究人员就可以对其身份充满信心;如果存在分歧,可能就没那么自信了。为了量化这一点,popV 提供了“不确定性分数”,以便用户知道在其鉴定中可以给予多大信任度。“这真的很酷,”Regev 说。PopV 使用来自 Tabula Sapiens 的数据进行训练,Tabula Sapiens 是一张人类细胞图谱,涵盖了近 500,000 个细胞,代表了 15 个人的 24 个器官。研究人员随后在来自人类肺细胞图谱 2 的数据库上对其进行了测试;根据最终论文,popV 的预测与大多数注释一致,比任何单个计算注释器都更准确。Biederstedt 计划将 popV 整合到 HCA 细胞注释平台用户界面中,科学家将能够在对细胞类型进行分类时查看 popV 的预测。“它确实让社区更接近自动细胞注释的梦想,并将极大地帮助研究人员,”他说。一旦研究人员发现了一种有趣的细胞类型或状态,他们可能会想知道它还会出现在哪里。Regev 和她的同事开发了 SCimilarity 来回答这个问题。该软件可以获取感兴趣的细胞概况