“生物学的 ChatGPT 时刻”:前 Meta 科学家开发出可创造“自然界中不存在”蛋白质的 AI 模型

ESM3 模型可以从头开始“编写”新蛋白质,为合成生物学开辟了新的可能性。

来源:LiveScience

就像 ChatGPT 通过预测序列中最有可能出现的单词来生成文本一样,新的人工智能 (AI) 模型可以从头开始编写非自然产生的新蛋白质。

人工智能 人工智能

科学家们在 7 月 2 日发表在预印本 bioRxiv 数据库上的一项研究中表示,他们利用新模型 ESM3 创建了一种新的荧光蛋白,该蛋白的序列与自然产生的荧光蛋白只有 58% 的相似性。由前 Meta 研究人员组建的 EvolutionaryScale 公司的代表也在 6 月 25 日的一份声明中概述了细节。

bioRxiv 数据库 bioRxiv 数据库 声明 声明

研究团队已在非商业许可下发布了该模型的小版本,并将向商业研究人员提供该模型的大版本。 EvolutionaryScale 称,该技术可用于从药物发现到设计用于塑料降解的新化学品等各个领域。

模型的小版本 模型的小版本

ESM3 是一种大型语言模型 (LLM),类似于 OpenAI 的 GPT-4,为 ChatGPT 聊天机器人提供动力,科学家在 27.8 亿种蛋白质上训练了他们的最大版本。对于每种蛋白质,他们提取了有关序列(组成蛋白质的氨基酸构建块的顺序)、结构(蛋白质的三维折叠形状)和功能(蛋白质的作用)的信息。他们随机掩盖了有关这些蛋白质的信息片段,并要求 ESM3 预测缺失的部分。

他们根据同一团队在 Meta 时进行的研究扩展了这个模型。2022 年,他们宣布了 EMSFold——ESM3 的前身,可以预测未知的微生物蛋白质结构。同年,Alphabet 旗下的 DeepMind 还预测了 2 亿种蛋白质的结构。

宣布 EMSFold 宣布 EMSFold DeepMind DeepMind 预测的蛋白质结构 预测的蛋白质结构 相关: EvolutionaryScale 的支持者之一