Loading...
机构名称:
¥ 6.0

超过30亿年的进化产生了编码自然蛋白空间的生物学图像。在这里我们表明,通过探测产生的代币训练的语言模型可以充当远离已知蛋白质远距离的功能蛋白的进化模拟器。我们提出了ESM3,这是一种领域的多模式生成语言模型,该模型是蛋白质的序列,结构和功能。esm3可以遵循复杂的提示,结合了其方式,并且对生物学一致性有很高的响应。我们已提示ESM3用一系列思考生成荧光蛋白。在我们合成的世代中,我们发现了与已知荧光蛋白的远距离(58%同一性)的明亮荧光蛋白。类似的遥远的天然荧光蛋白被超过五百万年的进化所隔开。

使用语言模型模拟5亿年的演变

使用语言模型模拟5亿年的演变PDF文件第1页

使用语言模型模拟5亿年的演变PDF文件第2页

使用语言模型模拟5亿年的演变PDF文件第3页

使用语言模型模拟5亿年的演变PDF文件第4页

使用语言模型模拟5亿年的演变PDF文件第5页

相关文件推荐