Loading...
机构名称:
¥ 4.0

生成基因组学模型可以设计越来越复杂的生物系统。然而,有效地控制这些模型以生成具有所需功能的新序列仍然是一项重大挑战。在这里,我们展示了 Evo,一个拥有 70 亿个参数的基因组语言模型,可以执行功能引导设计,超越自然序列。通过学习多个基因之间的语义关系,Evo 实现了基因组的“自动完成”,其中编码所需功能的 DNA 提示指示模型生成可挖掘类似功能的新 DNA 序列。我们将此过程称为“语义挖掘”,与传统的基因组挖掘不同,它可以访问不受发现的进化创新约束的序列景观。我们通过实验测试生成的抗 CRISPR 蛋白和毒素-抗毒素系统的活性来验证这种方法,包括与任何天然蛋白质没有显着同源性的从头基因。令人惊讶的是,即使在没有结构假设、已知的进化保守性或特定任务微调的情况下,使用 Evo 进行上下文蛋白质设计也能实现强大的活性和较高的实验成功率。然后,我们使用 Evo 自动完成数百万个提示,以生成 SynGenome,这是一个独一无二的数据库,其中包含超过 1200 亿个 AI 生成的基因组序列碱基对,可实现多种可能功能的语义挖掘。语义挖掘范例可实现超越观察到的进化宇宙的功能探索。

从基因组语言模型中挖掘功能性新生基因的语义

从基因组语言模型中挖掘功能性新生基因的语义PDF文件第1页

从基因组语言模型中挖掘功能性新生基因的语义PDF文件第2页

从基因组语言模型中挖掘功能性新生基因的语义PDF文件第3页

从基因组语言模型中挖掘功能性新生基因的语义PDF文件第4页

从基因组语言模型中挖掘功能性新生基因的语义PDF文件第5页

相关文件推荐