详细内容或原文请订阅后点击阅览
蛋白质:统治它们的马赛克模式?
几十年来,疏水核心(蛋白质 3D 结构中疏水性氨基酸聚集在一起的区域)的存在一直被认为是蛋白质的普遍特性。我们现在的发现可能会扩展该模型。特别是,其余氨基酸似乎也根据其化学类型(极性、酸性、碱性、特殊)聚集在一起,特别是以约 8 个单位为一组。这就是我们所说的 Mosaic Q 模型。以下是我们发现它的方法,以及用于其量化和可视化的工具。蛋白质:统治它们的马赛克模式?首先出现在《走向数据科学》上。
来源:走向数据科学TL;DR:为不断增加的不同目的而开发预测/预报应用程序。然而,机器学习也涉及数据挖掘,即识别数据本身隐藏的模式。从这个意义上说,RCSB PDB数据库构成了宝贵的生物数据资源,包含通过不同实验技术获得的数千个蛋白质3D结构。其中,X射线衍射是能够更准确地描述蛋白质结构中每个原子位置的方法。通过分析 X 射线确定的蛋白质结构数据集(超过 160,000 个结构),如果我们同时考虑氨基酸的位置及其化学类型,就可以找到一种模式。这种模式的生物学作用仍然没有被完全理解,但它似乎在非常不同的生物体的结构中得到很好的保守,从动物和植物到真菌和细菌。
从头开始
旅程始于几年前。当时,我正在研究细菌粘附素,这是细菌表面的蛋白质,负责相互作用,即将细菌固定在表面,例如我们的牙齿或其他细菌上,形成生物膜(细菌群落)。我记得当时我对多年前在大学学过的一门学科印象深刻:优雅而美丽的有机化学。因此,当我根据氨基酸(蛋白质的组成部分)的化学类型对其进行分类时,我很自然地尝试并以某种方式将粘附素的特性(它们对表面的粘性)与其结构中氨基酸的化学类型联系起来。
Mosaic Q 模型
在接下来的图片中,我们看到了分析的概述。以下是马赛克、通过 Q 进行的量化以及在超过 160,000 个实验结构中发现的保守曲线 (R= 0.979) 之间的关系。
