图2:ESM2预测结构化和无序残基的适应性景观。(a)呈现了人类HP1α蛋白(Uniprot ID:P45973)中氨基酸的ESM2评分,残基的PLDDT得分低于70,以蓝色突出显示,以表示缺乏确定结构的区域。(b)在结构秩序不同程度的三个区域的健身景观的详细观点。在左侧,人类HP1α蛋白的Alphafold2预测的结构以卡通表示显示,其颜色为PLDDT分数。三个特定区域,代表柔性无序(残基75-85),保守无序(残基87-92)和折叠(残基120-130)段,分别用蓝色,橙色和红色突出显示,使用球形粘贴样式。右侧的面板描绘了每个区域中每个区域的ESM2 LLR预测。(c,d)PLDDT和ESM2分布分布的直方图(C)和无序(D)残基。轮廓线表示计算为 - log P(PLDDT,ESM2)的自由能水平,其中P是基于其PLDDT和ESM2分数的残基的概率密度。轮廓以0.5个单位间隔间隔,以区分不同密度的区域。
图1 Polyq疾病蛋白的αFOLD结构。 (A) Predicted AlphaFold protein model of full-length ATXN1 (Human; AF-P54253), (B) ATXN2 (Human; AF-Q99700), (C) ATXN3 (Human; AF-P54252), (D) ATXN7 (Human; AF-O15265), (E) CACNA1A (Human; AF-O00555), (F) TBP(人类; AF-P20226),(G)AR(人类; AF-P10275)和(H)ATN1(Human; AF-P54259)。 (i)预测氨基酸残基1至413的Alphafold蛋白模型HTT(HTTQ21(1-414)),其中包含21个聚谷氨酰胺。 预测的HTTQ21(1-414)AlphaFold模型叠加在灰色(蛋白质数据库ID 6x9O,2.60Å分辨率[99]中显示的Cryo-EM确定的HTT-HAP40蛋白结构[99],其中未在Cryo-Em结构中确定PolyQ区域。图1 Polyq疾病蛋白的αFOLD结构。(A) Predicted AlphaFold protein model of full-length ATXN1 (Human; AF-P54253), (B) ATXN2 (Human; AF-Q99700), (C) ATXN3 (Human; AF-P54252), (D) ATXN7 (Human; AF-O15265), (E) CACNA1A (Human; AF-O00555), (F) TBP(人类; AF-P20226),(G)AR(人类; AF-P10275)和(H)ATN1(Human; AF-P54259)。(i)预测氨基酸残基1至413的Alphafold蛋白模型HTT(HTTQ21(1-414)),其中包含21个聚谷氨酰胺。预测的HTTQ21(1-414)AlphaFold模型叠加在灰色(蛋白质数据库ID 6x9O,2.60Å分辨率[99]中显示的Cryo-EM确定的HTT-HAP40蛋白结构[99],其中未在Cryo-Em结构中确定PolyQ区域。HTTQ21(1-414)模型高度对齐冷冻结构。由黑色矩形构建的残基代表野生型Polyq区域。比例尺表示源自AlphaFold预测的PLDDT值,并表示每日置信度度量[97]:PLDDT> 90,高精度; 90> plddt> 70建模良好; 70> PLDDT> 50低置信度; PLDDT <50差精度。ar,雄激素受体; ATN1,Atrophin 1; atxn1,ataxin 1; atxn2,ataxin 2; atxn3,ataxin 3; atxn7,ataxin 7; Cacna1a,钙电源门控通道亚基Alpha1 A(Cav2.1);冷冻电子,冷冻电子显微镜; HTT,亨廷顿; PLDDT,每个保留模型置信度评分; Polyq,聚谷氨酰胺; TBP,TATA结合蛋白。
图2:Evodiff会产生逼真的和结构上的蛋白质序列。(a)用于评估Evodiff序列模型产生的序列的可折叠性和自洽的工作流量。(b-c)可折叠性的分布,通过序列PLDDT的序列(b)的序列PLDT衡量,以及通过scperperxity(C)测量的自谐度,用于测试集,Evodiff模型和基础线的序列(n = 1000个序列;每个模型;盒子图显示Me-Dian和Internetrokile范围)。(d)序列PLDDT与测试集(灰色,n = 1000)和640M参数OADM模型Evodiff-seq(蓝色,n = 1000)的序列相对于scperperxity。(e)从Evodiff-Seq(640m参数OADM模型)中成功表达和表征无条件的世代的结构和指标。omegafold预测,并报告了每个结构的平均PLDDT。%的覆盖率和对最高爆炸击中的%身份在每个设计下面表示。(f)(e)设计序列的圆二色性(CD)光谱。(g)从CD光谱(蓝色)与Omegafold(灰色)推断出的每个序列的结构组成。Alphafold预测包含在图中S6进行比较。
图1。SOX2 C-IDR是无序且动态的。a)Sox2的示意图说明了本研究中使用的主要构建体。基于两个不同的预测因子(疾病332(虚线),Alphafold 19归一化PLDDT(实线)),该图显示了障碍预测与残基数的函数。DBD以及广告和富含丝氨酸的区域(有关详细信息,请参见文本)以及带电残基的位置。b)在5 µm浓度下不同SOX2变体的远紫外圆形二分法;全长Sox2(蓝色),C-IDR(灰色),N-DBD(绿色)。光谱是n = 3个独立测量值的平均值。c-d)Sox2荧光标记的单分子转移效率直方图,该荧光标记了DBD的两侧(残基37和120,分子数= 5323)或探测整个C- IDR(残基120-315,分子数量,分子数= 14544)。e)SOX2 C-IDR的荧光寿命分析。2D相关图显示了相对于固有供体荧光(d)的CY3B供体(da)的荧光寿命。动态线基于锯 - 聚合物模型。有关详细信息,请参见文本。f)1 H 15 N-HSQC全长SOX2的频谱。g)全长Sox2(蓝色)的CSCS图。确定DBD(绿色)的 SCSS针对孤立的N-
缩放定律表明,超过一万亿种居住在我们的星球上,但迄今为止仅研究或测序了一个微小和非代表性的分数(少于0.00001%)。深度学习模型,包括应用于生命科学任务的模型,取决于培训或参考数据集的质量和大小。鉴于我们在地球上生活时遇到的较大知识差距,我们提出了一种以数据为中心的方法来改善生物学中的深度学习模型:我们与自然公园和生物多样性利益相关者建立了伙伴关系,覆盖了50%的全球生物群落,建立了一个全球的宏观元素学和生物数据供应链。与现有公共数据相比,该数据集中捕获的蛋白质序列多样性具有较高的蛋白质序列多样性,我们将此数据优势应用于蛋白质折叠问题,通过补充Al-Phafold2的推断。我们的模型(基本折叠)超过了CASP15和CAMAO的目标的传统Alphafold2性能,其中60%显示PLDDT分数提高,RMSD值降低了80%。最重要的是,预测结构的提高质量可以产生赌注对接结果。通过与利益相关者分享利益,该数据源于我们提出的一种方法,可以同时改善生物学的深度学习模型,并激励对我们星球的生物多样性的保护。