对最近的人类基因组组装的比较分析突出了显著的序列差异,这种差异在着丝粒等多态性位点内达到顶峰。这引发了一个问题,即依赖人类参考基因组来准确分析来自实验细胞系的测序数据是否合适。在这里,我们提出了一种称为“同基因组参考”的新方法,该方法利用匹配的参考基因组进行多组学分析。我们为人类视网膜上皮细胞 (RPE-1) 生成了一个新的二倍体基因组组装,RPE-1 是一种广泛使用的非癌症实验室细胞系,具有稳定的二倍体核型,呈现出完全跨越着丝粒的分阶段单倍型和染色体水平支架。利用该组装体,我们表征了 RPE- 1 独有的单倍型解析基因组变异,包括一个稳定的标记染色体 X,其中 73.18 Mb 的 10 号染色体片段重复易位至该细胞系特有的微缺失端粒 t(X q ;10 q )。比较分析揭示了着丝粒区域内的序列多态性,包括所有染色体单倍型之间的意外遗传和表观遗传多样性。使用我们的组装体作为参考,我们重新分析了我们自己的和公开的 RPE-1 中生成的测序、甲基化和表观遗传数据,这些数据之前已使用非匹配和非二倍体参考基因组进行分析。我们的结果表明,同基因组参考可改善比对,将映射质量提高高达 85%,同时将错配减少一半,从而导致与着丝粒相关的峰调用发生显著变化。我们的工作代表了一个概念验证,展示了匹配的参考基因组在多组学分析中的应用,并在规模上为全面组装实验相关细胞系以广泛应用同基因组参考基因组奠定了基础。关键词:人类参考;二倍体基因组;从头组装;基因组参考;着丝粒组装;实验室细胞系;多组学分析;表观遗传学;人类多态性;实验细胞系;同基因组参考。
背景:普通狨猴(Callithrix jacchus)是研究最多的灵长类模式生物之一。然而,公共数据库中可用的狨猴基因组高度碎片化且充满序列缺口,阻碍了与狨猴基因组学和转录组学相关的研究进展。结果:在这里,我们利用单分子、长读序列数据来改进和更新现有的基因组组装,并报告了近乎完整的普通狨猴基因组。组装大小为 2.79 Gb,重叠群 N50 长度为 6.37 Mb,染色体支架 N50 长度为 143.91 Mb,代表了迄今为止最连续和高质量的狨猴基因组。大约 90% 的组装基因组以长度超过 1 Mb 的重叠群表示,与之前发表的狨猴基因组相比,连续性提高了约 104 倍。超过98%的先前发表的基因组的空白被成功填补,从而提高了基因组和转录组数据到组装基因组的映射率。