使用Proteome Central上的链接转到此数据的Pride条目(https://www.ebi.ac.uk/pride/archive/archive/project/projects/pxd043985)。阅读提交的详细信息,以查看您期望看到的样本。有一个查看,看看数据最初是如何处理和分析的。使用哪个程序进行搜索?查看可下载的文件列表。您可以识别原始原始数据和量化结果吗?有多少个样本,您可以将它们与顶部文本中描述的那些匹配?在这项研究中,有一个“实验Designtemplate.txt”文件,这不是必需的文件。可以查看此文件的内容,以查看是否有助于解释哪个文件是哪个文件。如果您想要有关研究的更多详细信息,那么您可以找到描述这项研究的论文。
摘要 - 指导的进化,一种蛋白质工程的策略,通过严格且资源密集的筛查或在广泛的突变中进行筛选或选择的过程来优化蛋白质特性(即健身)。通过对序列属性进行计算机筛选,机器学习引导的定向进化(MLDE)可以加快优化过程并减轻实验工作量。在这项工作中,我们提出了一个通用的MLDE框架,在该框架中,我们应用了蛋白质表示学习和蛋白质属性预测中深度学习的最新进步,以加速搜索和优化过程。特别是我们引入了一条优化管道,该管道利用大型语言模型(LLMS)来查明序列中的突变热点,然后建议替换以提高整体适应性。与其他最先进的基线算法相比,我们提出的框架在条件蛋白质产生中的效率和功效提高了。我们希望这项工作将不仅对蛋白质工程,而且对使用数据驱动方法解决组合问题进行新的启示。我们的实施可在https://github.com/ hysonlab/directed Evolution上公开获取。
CRISPR 原核防御系统 (Barrangou et al , 2007; Jinek et al , 2012) 的发现及其转化为有效且高效的基因组工程机制 (Cong et al , 2013; Mali et al , 2013; Ran et al , 2013) 的发现彻底改变了功能基因组学。CRISPR 技术依赖于将 RNA 引导的核酸内切酶靶向基因组内的特定序列位置。该系统已用于各种基因组修饰策略,包括基因敲除(通过错误修复断裂)和定点诱变(通过提高同源性定向修复的效率,在靠近断裂的基因组区域整合 DNA 模板)。在大多数应用中,将核酸酶准确靶向基因组位点比酶活性的特定核苷酸位置优先。虽然核酸酶工程化推动了该系统可支持的技术多样化(Pickar-Oliver & Gersbach,2019),但控制核酸酶靶向的分子规则保持不变;基因组地址编码在向导 RNA 序列 (gRNA) 中,该序列定义为位于原间隔区相邻基序 (PAM) 之前的 20 个核苷酸的基因组 DNA 片段。有大量的生物信息学工具可用
*联系人:m.pabst@tudelft.nl摘要基于废水的监视已成为监测病原体,抗生素耐药性基因以及测量种群水平暴露于药物和化学物质的强大工具。虽然监视方法通常靶向小分子,DNA或RNA,但废水也包含大量蛋白质。然而,尽管环境蛋白质组学最近取得了进步,但对废水中蛋白质生物标志物的大规模监测仍然远非常规。分析原始废水由于有机和无机物质,微生物,细胞碎片和各种化学污染物的异质混合物而提出了挑战。为了克服这些障碍,我们开发了一种废水元蛋白质组学方法,包括有效的蛋白质提取和优化的数据处理管道。管道利用从头测序来自定义大型公共序列数据库,以实现全面的元蛋白质组学覆盖范围。使用这种方法,我们分析了从两个城市地点收集的三个月内收集的废水样品。这揭示了一个核心微生物组,其中包括大量微生物,肠道细菌和潜在的机会病原体。此外,我们确定了近200种人类蛋白质,包括有前途的人口水平的健康指标,例如免疫球蛋白,泌尿瘤蛋白和与癌症相关的蛋白质。废水流是化学物质,有机化合物,微生物和生物分子(例如DNA和蛋白质)的复杂集合,其中很大一部分来自人类活动。关键词:荟萃蛋白质组学,废水,基于废水的流行病学,生物标志物,肠道微生物在全球介绍,每年生产约380万亿升的废水,并且随着世界人口的稳步增长,在未来50年中估计它将在未来50年中估计几乎是两倍。对微生物病原体,病毒和物质(例如药物,农药和压力和饮食的生物标志物)的废水分析已成为常规实践。Cristian G. Daughton在2001年2 - 4年被称为基于废水的流行病学(WBE)。今天,WBE包括各种生物学生物标志物,以评估人群5级的健康状况。基于废水的流行病学(WBE)已被证明可有效识别和监测流行病暴发。 ,例如,在1980年代,芬兰和以色列的废水监视提供了对脊髓灰质炎病毒传播6 7的见解。 此外,在冠状病毒大流行期间,各种研究小组和政府建立了COVID-19-19监视计划8 9 10。 这个知情的政府机构和公众关于SARS-COV-2 11、12的传播。 此外,某些细菌的存在还可以告知抗菌耐药性和各种疾病的传播13-17 18 19。 除了匿名的优势外,废水的收集相对便宜,并且可以适用于较大的人口规模。 对小分子(例如药物)的检测采用色谱分离,并结合了质谱20。基于废水的流行病学(WBE)已被证明可有效识别和监测流行病暴发。,例如,在1980年代,芬兰和以色列的废水监视提供了对脊髓灰质炎病毒传播6 7的见解。此外,在冠状病毒大流行期间,各种研究小组和政府建立了COVID-19-19监视计划8 9 10。这个知情的政府机构和公众关于SARS-COV-2 11、12的传播。此外,某些细菌的存在还可以告知抗菌耐药性和各种疾病的传播13-17 18 19。除了匿名的优势外,废水的收集相对便宜,并且可以适用于较大的人口规模。对小分子(例如药物)的检测采用色谱分离,并结合了质谱20。对病毒,微生物或抗菌耐药基因的分析通常采用靶向方法,例如各种基于核酸的聚合酶链反应方法21-26。最近,使用下一代测序方法的非靶向方法变得更加负担得起,并且在研究水和废水环境方面越来越流行24,27-30。
快速增长的数据需要可靠且持久的存储解决方案。DNA由于其高信息密度和长期稳定性而成为一种有希望的媒介。但是,DNA存储是一个复杂的过程,每个阶段都会引入噪声和错误,包括合成错误,存储衰减和测序错误,它需要对错误校正的代码(ECC)才能获得可靠的数据恢复。要设计一种最佳数据恢复方法,对DNA数据存储通道中噪声结构的综合理解至关重要。由于在体外运行DNA数据存储实验仍然很昂贵且耗时,因此必须进行模拟模型,以模仿真实数据中的误差模式并模拟实验。现有的仿真工具通常依赖固定的误差概率或特定于某些技术。在这项研究中,我们提出了一个基于变压器的生成框架,用于模拟DNA数据存储通道中的错误。我们的模拟器将寡素(DNA序列写入)作为输入,并生成错误的输出DNA读取,与常见DNA数据存储管道的真实输出非常相似。它捕获了随机和有偏见的误差模式,例如K-MER和过渡错误,无论过程或技术如何。我们通过分析两个使用不同技术处理的数据集来证明模拟器的有效性。在第一种情况下,使用Illumina Miseq处理,由DDS-E-SIM模拟的序列显示出与原始数据集的总误率偏差仅为0.1%。第二次使用牛津纳米孔技术进行的偏差为0.7%。基本级别和K-MER错误与原始数据集紧密对齐。此外,我们的模拟器从35,329个序列中生成100,743个独特的橄榄岩,每个序列读取五次,证明了其同时模拟偏置错误和随机属性的能力。我们的模拟器以优越的精度和处理多种测序技术的能力优于现有的模拟器。
蛋白质的翻译后修饰(PTM)在其功能和可行性中起着至关重要的作用。这些修饰会影响蛋白质折叠,信号传导,蛋白质 - 蛋白质相互作用,酶活性,结合亲和力,聚集,降解等等。迄今为止,已经描述了超过400种PTM,代表了远远超出遗传编码氨基酸的化学多样性。这种修饰对蛋白质的成功设计构成了挑战,但也代表了使蛋白质工程工具箱多样化的主要机会。为此,我们首先训练了人工神经网络(ANN),以预测十八种最丰富的PTM,包括蛋白质糖基化,磷酸化,甲基化和脱氨酸。在第二步中,这些模型是在计算蛋白建模套件Rosetta中实现的,该模型允许与现有协议的灵活组合来建模修饰的位点并了解它们对蛋白质稳定性和功能的影响。最后,我们开发了一种新的设计协议,该协议可以最大化或最大程度地减少修改特定站点的预先指定的概率。我们发现,基于ANN预测和基于结构的设计的这种组合可以使现有和引入新颖PTM的修改。我们工作的潜在应用包括但并不包括对表位的聚糖掩盖,从而加强了通过phos-odylation加强蛋白质 - 蛋白质相互作用,还可以保护蛋白质免受脱氨基责任的影响。我们的作品为Rosetta的蛋白质工程工具箱添加了新颖的工具,该工具允许PTM的理性设计。这些应用对于设计新蛋白质治疗剂的设计尤其重要,在这种蛋白质疗法的设计中,PTM可以彻底改变蛋白质的治疗特性。
基于质谱的蛋白质组学方法是基于配体结合蛋白比游离蛋白对加热诱导沉淀具有更高的抵抗力这一原理。17 它已成功用于识别某些药物的靶标或非靶标,例如抗组胺药氯马斯汀 18 和帕比诺司他。19 我们开发了另一种基于蛋白质沉淀的靶标识别方法,即溶剂诱导蛋白质沉淀法(SIP)。12 SIP 方法已成功用于筛选萘醌天然产物紫草素(SHK)的靶标蛋白,并揭示 SHK 与 NEMO/IKK b 复合物结合。20 最近,通过将 SIP 与现代定量蛋白质组学相结合,建立了溶剂蛋白质组分析(SPP)和溶剂蛋白质组整体溶解度改变(溶剂-PISA)方法以监测靶标参与。21
该预印本版的版权持有人于2024年6月12日发布。 https://doi.org/10.1101/2024.06.11.598423 doi:Biorxiv Preprint
另一方面,生物学仍然主要使用传统工具。BLAST 和隐马尔可夫模型在搜索大型蛋白质序列数据库方面有着悠久的使用历史,这些数据库通过残基重叠和基于比对的特征进行评分。基于结构的方法,例如 DALI ( Holm ,2020 ) 和 TM-align ( Zhang & Skolnick ,2005 ) 长期以来一直具有更高的灵敏度来查找远程同源物,但由于其速度和可用蛋白质结构的数量而难以获得更广泛的采用。随着 AlphaFold2 ( Jumper et al. ,2021 ) 等精确蛋白质结构预测方法的出现,使用以前的工具搜索同源结构已变得几乎站不住脚。基于深度学习的方法,例如 Foldseek(van Kempen 等人,2023 年)、TM-vec(Hamamsy 等人,2022 年)、SMAMPNN(Trinquier 等人,2022 年)、Progres(Greener & Jamali,2022 年)一直试图弥补这一差距,但尚无法与 DALI 的灵敏度或序列搜索的速度相媲美(Steinegger & S¨oding,2017 年)。
预印本(未通过同行评审认证)是作者/资助者。保留所有权利。未经许可就不允许重复使用。该版本的版权持有人于2024年12月27日发布。 https://doi.org/10.1101/2024.12.26.630335 doi:Biorxiv Preprint