一个复合 GRanges 对象,包含来自各种来源的假定增强子元素区域,主要用于 TENET Bioconductor 包。该数据集由强增强子区域组成,这些区域由 Roadmap Epigenomics ChromHMM 扩展的基于 98 个参考表观基因组的 18 状态模型注释,并转移到 hg38 基因组(以下 4 种状态代表强增强子:7:基因增强子 1、8:基因增强子 2、9:活性增强子 1 和 10:活性增强子 2),以及 FANTOM5 项目在第 1 阶段和第 2 阶段确定的人类允许增强子区域。有关组件数据集的更多信息,请参阅托管在 https://github.com/rhielab/TENET.AnnotationHub/blob/devel/data-raw/TENET_consensus_datasets_manifest.tsv 上的清单文件。引用:Roadmap Epigenomics Consortium;Kundaje A、Meuleman W、Ernst J 等人。111 个参考人类表观基因组的综合分析。Nature。2015 年 2 月 19 日;518(7539):317-30。doi:10.1038/nature14248。PMID:25693563;PMCID:PMC4530010。Lizio M、Harshbarger J、Shimoji H 等人。通往 FANTOM5 启动子水平哺乳动物表达图谱的途径。Genome Biol 16(1),22 (2015)。Abugessaisa I、Ramilowski JA、Lizio M 等人。FANTOM 进入第 20 个年头:转录组图谱的扩展和非编码 RNA 的功能注释。 Nucleic Acids Res. 2021 年 1 月 8 日;49(D1):D892-D898。doi:10.1093/nar/gkaa1054。PMID:33211864;PMCID:PMC7779024。
记录为“低”,低于一个标准差的记录为“未检测到”。没有表达值的蛋白质被记录为“不可用”丰度。从 IHC 获得的人体组织蛋白表达谱的自然格式是上述五个类别,因此没有调整。而对于从 HPA、GTEx 和 FANTOM5 整合的 RNA 共识表达谱,20 到 40 之间的共识标准化表达 (NX) 值被记录为“中”,高于此阈值的 NX 值被记录为“高”。同样,1-20 范围内的 NX 值被记录为“低”,低于
尽管非编码变体在人类疾病中的重要作用至关重要,但我们对非编码区域的有限理解一直阻碍了非编码变体的解释和事先进行的解释。大型财团(例如编码(32)和Fantom5(5)以及独立的研究小组在注释这个很大程度上未知的领域的潜在功能元素方面取得了巨大进展。在这篇综述中,我们首先讨论了监管格局的各种注释,以及这些努力如何帮助破译非编码变体的生物学影响(图1)。然后,我们描述生物信息学工具中的进步,以通过整合这些功能注释来确定非编码变体的优先级。最后,我们提出了一系列的实验测定,以评估候选变体的调节潜力。
全基因组测序 (WGS) 在医疗保健和研究中的应用日益广泛,使我们能够识别非编码区域中的大量变异,从而激发了近年来人们对这些非编码变异及其生物学意义的兴趣。越来越多的证据表明,功能性非编码变异可能是外显子组测序队列中遗传性缺失的原因,其中很大一部分患者未得到分子诊断(74)。值得注意的是,全基因组关联研究 (GWAS) 发现的近 90% 的疾病相关变异位于非编码区域,它们富含转录调控元件 (TRE),可能通过扰乱基因调控发挥作用(81)。尽管非编码变异在人类疾病中发挥着至关重要的作用,但由于我们对非编码区域的了解有限,对非编码变异的解释和优先排序长期以来一直受到阻碍。大型联盟(如 ENCODE (32) 和 FANTOM5 (5))和独立研究小组在这一未知领域对潜在功能元件进行注释方面取得了巨大进展。在这篇综述中(图 1),我们首先讨论了调控格局的各种注释,以及这些努力如何帮助解读非编码变异的生物学影响。然后,我们描述了通过整合这些功能注释来确定非编码变异优先次序的生物信息学工具的进展。最后,我们提出了一系列实验分析来评估候选变异的调控潜力。
