摘要背景:合适的测序策略与填补方法的结合对于从牲畜种群中收集用于研究和育种的大型全基因组序列数据集至关重要。在本文中,我们描述并验证了测序策略与填补方法混合剥离在真实动物育种环境中的结合。方法:我们使用了四个不同规模的猪种群的数据(18,349 到 107,815 头猪),这些猪种群的基因分型广泛,全基因组标记密度在 15,000 到 75,000 个之间。每个种群中大约有 2% 的个体进行了测序(大多数为 1 × 或 2 ×,每个种群有 37–92 个个体,总计 284 个,为 15–30 × )。我们使用混合剥离技术填补了全基因组序列数据。我们使用留一法设计,通过删除覆盖率高的 284 个个体的序列数据来评估填补准确性。我们模拟了模仿真实人群中使用的测序策略的数据,以使用回归树量化影响个体和变异插补准确性的因素。结果:四个人群中大多数个体的插补准确性都很高(个体剂量相关性中位数:0.97)。由于缺乏自身和祖先的标记阵列数据,每个人群最早几代个体的插补准确性低于其他人群。决定个体插补准确性的主要因素是基因分型状态、直系祖先的标记阵列数据的可用性以及与其他人群的关联程度,但亲属的测序覆盖率没有影响。决定变异插补准确性的主要因素是次要等位基因频率和每个变异位点具有测序覆盖的个体数量。通过实证观察验证了结果。结论:我们证明,将适当的测序策略与混合剥离相结合是一种强大的策略,可以在大型谱系群体中生成高精度的全基因组序列数据,其中只有一小部分个体(2%)进行了测序,而且大部分覆盖率较低。这是成功实施全基因组序列数据进行基因组预测和精细定位因果变异的关键步骤。