详细内容或原文请订阅后点击阅览
AlphaFold 2 解析:半深度探索
上个月底,谷歌机器学习研究部门 DeepMind 创下了新纪录:准确预测蛋白质结构。DeepMind 以开发击败围棋和星际争霸 II 世界冠军的机器人而闻名。如果他们的结果像团队声称的那样好,他们的模型 AlphaFold 可能会为药物发现和基础生物学研究带来重大福音。但这种基于神经网络的新模型是如何工作的呢?在这篇文章中,我将尝试简要但半深入地介绍支持该模型的机器学习和生物学。首先,快速了解一下生物学:蛋白质在体内的功能完全由其三维结构决定。例如,臭名昭著的“刺突蛋白”可以标记冠状病毒,从而使病毒进入我们的细胞。同时,Moderna 和辉瑞等 mRNA 疫苗复制了这些刺突蛋白的形状,从而导致人体产生免疫反应。但从历史上看,确定蛋白质结构(通过 X 射线晶体学、核磁共振和低温电子显微镜等实验技术)既困难又缓慢,而且成本高昂。此外,对于某些类型的蛋白质,这些技术根本不起作用。但从理论上讲,蛋白质的整个 3D 形状应该由组成它的氨基酸链决定。我们可以通过 DNA 测序轻松确定蛋白质的氨基酸序列(还记得生物 101 中你的 DNA 如何编码氨基酸序列吗?)。
来源:Dale on AI上个月底,谷歌机器学习研究部门 DeepMind 创下了新的纪录:准确预测蛋白质的结构。DeepMind 以开发击败围棋和星际争霸 II 世界冠军的机器人而闻名。如果他们的结果像团队声称的那样好,他们的模型 AlphaFold 可能会对药物发现和基础生物学研究产生重大影响。但这种基于神经网络的新模型是如何工作的呢?在这篇文章中,我将尝试简要但半深入地介绍支持该模型的机器学习和生物学。
创下新纪录首先,快速了解一下生物学:蛋白质在体内的功能完全由其三维结构决定。例如,臭名昭著的“刺突蛋白”与冠状病毒有关,它允许病毒进入我们的细胞。同时,Moderna 和辉瑞等 mRNA 疫苗复制了这些刺突蛋白的形状,从而导致人体产生免疫反应。但从历史上看,确定蛋白质结构(通过 X 射线晶体学、核磁共振和低温电子显微镜等实验技术)一直很困难、缓慢且昂贵。此外,对于某些类型的蛋白质,这些技术根本不起作用。
但从理论上讲,蛋白质的整个 3D 形状应该由组成它的氨基酸链决定。我们可以通过 DNA 测序轻松确定蛋白质的氨基酸序列(还记得 Bio 101 中你的 DNA 如何编码氨基酸序列吗?)。但在实践中,从氨基酸序列预测蛋白质结构一直是一项令人头疼的困难任务,我们几十年来一直在努力解决。
由决定
这就是 AlphaFold 的作用所在。它是一种基于神经网络的算法,在蛋白质折叠问题上表现惊人地出色,以至于它在质量上似乎可以与传统的缓慢而昂贵的成像方法相媲美。 博客文章 去年 GPT-3 Transformers 公共数据集Word2Vec