人类基因渗入结构变异和选择的全球图谱 |科学

尼安德特人和丹尼索瓦人的基因渗入塑造了现代人类基因组;然而,基因渗入的结构变异(SV ≥ 50 个碱基对)仍然难以发现。我们集成了来自四个新巴布亚新的高质量分阶段组件......

来源:Science Magazine

巴布亚组装体中的基因组变异

我们使用基于装配的(PAV v1.1.2 和 SVIM-ASM v1.0.3)和基于读取的调用程序(Sniffles2 v2.2 和 PBSV v2.9.0)(材料和方法)评估了四个 PNG 单倍型装配相对于 GRCh38 的基因组变异。由于跨调用集合并 SV 具有挑战性,因此我们使用 PAV 作为主要调用集,因为它具有高精度 (

)并使用其他人来支持(材料和方法)。为了进行比较,我们包含了 HPRCr1 PAV 调用集。 PAV 在每个 PNG 基因组中识别出约 440 万个 SNV 和约 100 万个插入缺失 (<50 bp),与非非洲 HPRCr1 样本一致(图 S3)(

)。质量控制 (QC) 之后 (

),约 12% 的小变体特定于 PNG (

,

)。对于大型 SV(≥50 bp),调用者总共检测到每个基因组约 30,000 个插入、约 23,000 个缺失和约 175 个倒位(

)。超过 89% 的 PAV SV 得到了其他调用者的支持(图 S4)(

)。 PAV 特异性 SV 明显长于多个调用者识别的 SV [图 1]。 S4和表S5;曼-惠特尼 U (MWU) 测试,

< 1.0 × 10

无论 SV 类型如何),反映了装配灵敏度的提高。与 HPRCr1 的联合分析表明 5.6% 的 SV 是 PNG 特异性的 (

),略高于东亚人对(4.7%至4.9%),与混血美国人(5.2%至6.6%)相当。 PNG 特有的插入和缺失分别占总数的 4% 和 6%(图 S5)。因为倒置的一致性较低(<15%),而群体特异性较高(

),除非另有说明,否则我们重点关注大多数下游分析的插入和删除。与之前的研究类似(

< 0.001) (

),与针对大 SV 的纯化选择一致(

)。

图 2. PNG 组件中基因组变异的表征。

和图。 S7) (

< 0.02,除了汉族南方语言 (CHS) 和尼日利亚伊巴丹的约鲁巴语 (YRI)] 且长度更长(单边 MWU 测试,未校正

在所有程序集中,8.2% (

/

2,

、15q11.3 和 22q11.2 位点 (

轨迹 (

(

)。在

) (