基因组语言模型(GLM)的出现提供了一种无监督的方法,可以在非编码基因组中学习各种顺式调节模式,而无需湿LAB实验产生的功能活动标签。先前的评估表明,可以利用预训练的GLM,以提高广泛的调节基因组学任务的预测性能,尽管使用了相对简单的基准数据集和基线模型。由于这些研究中的GLM在对每个下游任务的重量进行微调时进行了测试,从而确定GLM表示是否体现了对顺式调节生物学的基本理解仍然是一个悬而未决的问题。在这里,我们评估了预训练的GLM的代表性,以预测和解释跨越DNA和RNA调控的细胞类型特异性功能基因组学数据。我们的发现表明,当前的GLM与使用单热编码序列的常规机器学习方法没有实质性优势。这项工作强调了当前GLM的主要局限性,从而在非编码基因组的常规预训练策略中提出了潜在的问题。
基因组编辑可以对内源性顺式调控元件进行序列功能分析,从而推动对其机制的理解和基因疗法的发展。然而,这些方法不能与染色质结构和长单分子染色质纤维可及性的直接可扩展读数相结合。在这里,我们利用双链 DNA 胞嘧啶脱氨酶通过靶向 PCR 和长读测序以高深度和分辨率分析内源性目标基因座的染色质可及性,我们将这种方法称为靶向脱氨酶可及染色质测序 (TDAC-seq)。TDAC-seq 凭借目标基因座的高序列覆盖率,可以与 CRISPR 扰动独特地整合,从而实现顺式调控元件的功能解剖,其中遗传扰动及其对染色质可及性的影响叠加在同一单个染色质纤维上并以单核苷酸分辨率解析。我们利用 TDAC-seq 解析了在红细胞分化过程中激活人类 CD34+ 造血干细胞和祖细胞中胎儿血红蛋白的 CRISPR 编辑,以及在合并的 CRISPR 和碱基编辑筛选中平铺控制珠蛋白位点的增强子。总之,TDAC-seq 能够通过基因组编辑实现单分子染色质纤维的高分辨率序列功能映射。
转录因子与序列基序结合,并充当敏捷因子或阻遏物。带有辅助辅因子星座的转录因子界面,以调节调节转录的不同机械步骤。我们迅速降低了必需和普遍表达的转录因子Znf143,以确定其在转录周期中的功能。ZNF143促进RNA聚合酶起始并激活基因表达。ZNF143结合其几乎所有活化靶基因的启动子。Znf143还结合了遗传转录启动位点,直接抑制基因的子集。尽管Znf143刺激了Znf143抑制基因的启动(即那些在Znf143 depletion上增加表达的人,结合的分子环境会导致顺式代表。Znf143与其他更有效的激活因子竞争启动子的访问,物理遮挡了转录起始位点和启动子序列序列元素,并在早期eLon-grongation期间充当了RNA聚合酶的分子障碍。通常调用上下文术语上下文来描述具有激活和抑制函数的转录因子。我们定义了ZnF143介导的顺式激活和抑制的上下文和分子机制。
基因组语言模型(GLM)的出现提供了一种无监督的方法,用于学习非编码基因组中的广泛的顺式调节模式,而无需湿LAB实验产生的功能活动标签。先前的评估表明,可以利用预训练的GLM来提高广泛的监管基因组学任务的预测性能,尽管使用了相对简单的基准数据集和基线模型。由于这些研究中的GLM在对每个下游任务的重量进行微调时进行了测试,从而确定GLM表示是否体现了对顺式调节生物学的基本理解仍然是一个悬而未决的问题。在这里,我们评估了预训练的GLM的代表性,以预测和解释跨越DNA和RNA调控的细胞类型特异性功能基因组学数据。我们的发现表明,与使用单热编码序列的常规机器学习方法相比,探测预训练的GLM的表示没有实质性优势。这项工作强调了当前GLM的主要差距,从而在非编码基因组的常规培训策略中提出了潜在的问题。
最近,利用功能基因组学方法取得的进展已生成一种用于调节 CFTR 基因表达的细胞类型选择性模型。本次演讲将介绍有关顺式调控元件、转录因子和结构特征的新数据,这些数据是协调呼吸道和肠道上皮分泌细胞中 CFTR 表达所必需的。该模型为基因编辑疗法的开发提供了宝贵的信息。
等位基因特异性表达 (ASE) 分析可量化二倍体个体中两个等位基因的相对表达,是识别顺式调控基因表达变异的有力工具,而顺式调控基因表达变异是个体间表型差异的基础。现有的基因水平 ASE 检测方法每次仅分析一个个体,因此无法解释个体间共享的信息。无法容纳这种共享信息不仅会降低检验能力,而且难以解释个体间的结果。然而,当只有 RNA 测序 (RNA-seq) 数据可用时,跨个体的 ASE 检测具有挑战性,因为数据通常包括未观察到的顺式调控 SNP 杂合或纯合的个体,从而导致样本异质性,因为只有杂合个体才对 ASE 具有信息性,而纯合个体的表达则均衡。为了同时对多个个体的信息进行建模并解释这种异质性,我们开发了 ASEP,这是一种具有受试者特定随机效应的混合模型,用于解释同一基因内的多 SNP 相关性。ASEP 只需要 RNA 测序数据,并且能够检测一种条件下的基因水平 ASE 和两种条件(例如,治疗前和治疗后)之间的差异 ASE。广泛的模拟证明了 ASEP 在各种情况下的令人信服的性能。我们将 ASEP 应用于人类肾脏 RNA 测序数据集,识别出 ASE 基因,并通过两项已发表的 eQTL 研究验证了我们的结果。我们进一步将 ASEP 应用于人类巨噬细胞 RNA 测序数据集,识别出显示 M0 和 M1 巨噬细胞之间存在差异 ASE 证据的基因,并通过心脏代谢特征相关的全基因组关联研究的结果证实了我们的发现。据我们所知,ASEP 是第一种仅需使用 RNA 测序数据即可在人群水平上进行基因水平 ASE 检测的方法。随着 RNA-seq 的日益普及,我们相信 ASEP 将非常适合针对人类疾病的各种 ASE 研究。
功能序列的缺失被认为是分子进化的基本机制 1,2 。灵长类动物的比较遗传学研究 2,3 已经发现了数千个人类特异性缺失 (hDels),并且已经使用报告基因检测 4 评估了短 (≤31 个碱基对) hDels 的顺式调控潜力。然而,结构变体大小 (≥50 个碱基对) 的 hDels 如何影响其原生基因组环境中的分子和细胞过程仍未得到探索。在这里,我们设计了针对 6,358 个 hDels 中 7.2 兆碱基序列的单向导 RNA 基因组规模文库,并提出了一种系统的 CRISPR 干扰 (CRISPRi) 筛选方法来识别改变黑猩猩多能干细胞细胞增殖的 hDels。通过将 hDels 与染色质状态特征进行交叉并执行单细胞 CRISPRi(Perturb-seq)来识别它们的顺式和反式调控靶基因,我们发现了 20 个控制基因表达的 hDels。我们重点介绍了两个 hDels,hDel_2247 和 hDel_585,它们在脑中具有组织特异性活性。我们的研究结果揭示了人类谱系中丢失的序列的分子和细胞作用,并建立了一个功能性地询问人类特异性遗传变异的框架。
序列功能模型可预测基因组DNA序列的基因表达,已证明对许多生物学任务有价值,包括了解顺式调节语法和解释非编码遗传变异。然而,当前的最新模型已在很大程度上接受了来自健康组织或细胞系的散装表达谱的培训,并且还没有学会在大型单细胞转录组数据集中捕获的精确细胞类型和状态的特性。因此,他们缺乏在各种组织和疾病环境中的特定细胞类型或状态下执行这些任务的能力。为了解决这一差距,我们提出了Decima,该模型可以从其周围的DNA序列中预测基因的细胞类型和条件 - 特异性表达。decima在超过2200万个细胞的单细胞或单核RNA测序数据上进行了训练,并成功地基于其序列成功预测了看不见基因的细胞类型特异性表达。在这里,我们证明了Decima揭示驱动细胞类型特异性基因表达的顺式调节机制及其在疾病中的变化,以预测细胞类型分辨率下的非编码变异效应,并使用精确调谐的,情境特异性功能设计调节性DNA元件。
摘要:可变剪接通过使用有限数量的基因来促进蛋白质组多样性,这是基因表达的一个关键控制点。剪接由大型大分子机制(称为剪接体)进行,剪接体由小RNA和蛋白质组成。可变剪接受RNA中的剪接调节顺式元件和反式剪接因子的调控,这些因子通常以组织特异性和发育阶段特异性的方式受到严格调控。核糖核蛋白(RNP)复合物的生物合成受到严格调控,以确保在正确的时间在正确的细胞中协调正确的RNA和蛋白质补体以支持生理功能。任何通过破坏顺式元件或损害RNA结合或反式因子功能而损害功能性剪接体形成的干扰都可能对细胞有害并导致病理后果。最近发现的剪接因子致癌突变,以及多种癌症中剪接紊乱的证据越来越多,强调 RNA 加工缺陷是致癌的关键驱动因素。这些发现引起了人们对以 RNA 剪接为靶点治疗癌症的治疗方法的兴趣。本综述总结了我们目前对癌症剪接变异的理解、最近针对癌症剪接缺陷的治疗努力以及开发新型癌症疗法的未来潜力。
基于 CRISPR 的基因激活 (CRISPRa) 是一种通过以组织/细胞类型特异性的方式靶向启动子或增强子来上调基因表达的策略。在这里,我们描述了一个实验框架,该框架将高度多路复用的扰动与单细胞 RNA 测序 (sc-RNA-seq) 相结合,以识别细胞类型特异性、CRISPRa 响应的顺式调控元件及其调控的基因。将许多 gRNA 的随机组合引入许多细胞中的每一个,然后对其进行分析并分成测试组和对照组,以测试 CRISPRa 对增强子和启动子的扰动对邻近基因表达的影响。将该方法应用于 493 个 gRNA 文库,这些 gRNA 靶向 K562 细胞和 iPSC 衍生的兴奋性神经元中的候选顺式调控元件,我们识别出能够特异性上调预期靶基因且 1 Mb 内没有其他邻近基因的 gRNA,包括导致神经元中六种自闭症谱系障碍 (ASD) 和神经发育障碍 (NDD) 风险基因上调的 gRNA。一致的模式是,单个增强子对 CRISPRa 的响应受细胞类型的限制,这意味着成功激活基因依赖于染色质景观和/或其他反式因子。本文概述的方法可能有助于大规模筛选以细胞类型特异性方式激活基因的 gRNA。