蛋白质：统治它们的马赛克模式？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

蛋白质：统治它们的马赛克模式？

2026年6月18日 15:00 33 Comments

几十年来，疏水核心（蛋白质 3D 结构中疏水性氨基酸聚集在一起的区域）的存在一直被认为是蛋白质的普遍特性。我们现在的发现可能会扩展该模型。特别是，其余氨基酸似乎也根据其化学类型（极性、酸性、碱性、特殊）聚集在一起，特别是以约 8 个单位为一组。这就是我们所说的 Mosaic Q 模型。以下是我们发现它的方法，以及用于其量化和可视化的工具。蛋白质：统治它们的马赛克模式？首先出现在《走向数据科学》上。

来源:走向数据科学

TL;DR：为不断增加的不同目的而开发预测/预报应用程序。然而，机器学习也涉及数据挖掘，即识别数据本身隐藏的模式。从这个意义上说，RCSB PDB数据库构成了宝贵的生物数据资源，包含通过不同实验技术获得的数千个蛋白质3D结构。其中，X射线衍射是能够更准确地描述蛋白质结构中每个原子位置的方法。通过分析 X 射线确定的蛋白质结构数据集（超过 160,000 个结构），如果我们同时考虑氨基酸的位置及其化学类型，就可以找到一种模式。这种模式的生物学作用仍然没有被完全理解，但它似乎在非常不同的生物体的结构中得到很好的保守，从动物和植物到真菌和细菌。

从头开始

旅程始于几年前。当时，我正在研究细菌粘附素，这是细菌表面的蛋白质，负责相互作用，即将细菌固定在表面，例如我们的牙齿或其他细菌上，形成生物膜（细菌群落）。我记得当时我对多年前在大学学过的一门学科印象深刻：优雅而美丽的有机化学。因此，当我根据氨基酸（蛋白质的组成部分）的化学类型对其进行分类时，我很自然地尝试并以某种方式将粘附素的特性（它们对表面的粘性）与其结构中氨基酸的化学类型联系起来。

Mosaic Q 模型

在接下来的图片中，我们看到了分析的概述。以下是马赛克、通过 Q 进行的量化以及在超过 160,000 个实验结构中发现的保守曲线 (R= 0.979) 之间的关系。

与社区分享分析

参考文献

10.25504/FAIRsharing.9f9f9c

数据集蛋白质 000 分析的数据挖掘确定的结构增加的生物学应用程序化学模式不同的类型参考文献氨基酸位置的粘附实验技术细菌机器学习数据库分析相互作用互作用隐藏的根据数据 160 表面的