Darwin Life Project是一项大型生物多样性计划,旨在为整个英国和爱尔兰的70,000种真核生物生成高质量的基因组。对于这样的大型项目,高通量(HT)解决方案至关重要; PACBIO NANOBIND HT DNA提取试剂盒与Revio系统相结合,通过显着增加吞吐量并降低长阅读测序的成本来满足这些需求。
长阅读测序已彻底改变了基因组组装,产生了高度连续的染色体水平重叠群。但是,来自某些第三代长读技术的组件,例如太平洋生物科学(PACBIO)连续长读(CLR)具有很高的错误率。可以通过称为抛光的过程来纠正此类错误。尽管脊椎动物基因组项目(VGP)组装社区最近描述了抛光非模型的新型基因组组件的最佳实践,但需要在常规的高性能计算环境下轻松实施并运行公开可再现的工作流程。在这里,我们描述了polishclr(https://github.com/isugifnf/polishclr),这是一种可复制的NextFlow工作流程,可实现CLR数据制成的抛光组件的最佳实践。可以从将最佳实践扩展到次优案例的几种输入选项中启动。它还在几个关键过程中提供了重新输入点,包括识别Purge_Dups中的重复单倍型,如果有数据可用,请降低脚手架的休息,以及在多个回合的抛光和评估中,用箭头和freebayes进行评估。polishclr已被集装箱和公开可用于更大的集会社区,作为从现有的,易错的长阅读数据中填写组件的工具。
摘要PACBIO测序技术提供了最完整,最准确,连续的基因组,并已被用作许多生物多样性,保护和农业类似学计划中的核心技术。在这里,我们在工作流程中提出了重大的进步,这些进步通过提供DNA隔离的方法进一步促进测序工作,并为库准备过程提供了增强的尺寸选择。这些改进应用于各种植物,昆虫和动物样品,并在新的Revio系统上进行了测序,从每个库中产生了90多个GB的数据。