压缩数据技术实现大规模泛基因组学

加州大学的工程师开发了一种新的数据结构和压缩技术,使泛基因组学领域能够处理前所未有的遗传信息规模。该团队由加州大学圣地亚哥分校电气和计算机工程教授 Yatish Turakhia 领导,在 Nature Genetics 上描述了他们的压缩泛基因组学方法。

来源:英国物理学家网首页

加州大学的工程师开发了一种新的数据结构和压缩技术,使泛基因组学领域能够处理前所未有的遗传信息规模。该团队由加州大学圣地亚哥分校电气和计算机工程教授 Yatish Turakhia 领导,在 Nature Genetics 上描述了他们的压缩泛基因组学方法。

泛基因组学是生物信息学的一个子集,是对来自一个特定物种的许多不同基因组的研究。与使用单一参考基因组相比,这可以更全面地了解物种内发生的自然变异和突变。这有许多实际应用,例如研究基因组突变如何导致病原体的传播性或耐药性增加。

当前泛基因组方法面临的挑战

尽管基因组测序技术的进步降低了测序成本并提高了测序速度,但研究和以图形方式表示数百万个已测序基因组之间的关系所需的数据结构和分析工具仍然是一个挑战。

虽然基于图形的泛基因组数据格式已变得流行并被广泛采用,但它们仅代表基因组集合中的遗传变异,而不是它们共享的进化和突变历史。它们还具有大量存储需求,但无法很好地扩展。

“用于泛基因组学研究的数据结构至关重要,因为它们不仅决定了遗传数据表示的效率,还决定了数据可以表示的内容,”电气工程博士 Sumit Walia 说。雅各布斯工程学院的候选人,也是该研究的共同第一作者。

该研究团队包括来自加州大学圣克鲁斯分校基因组研究所的工程师,他们首创了一种新的数据结构和文件格式,称为泛基因组突变注释网络 (PanMAN)。

PanMAN的工作原理及其优势

未来方向