长阅读测序已彻底改变了基因组组装,产生了高度连续的染色体水平重叠群。但是,来自某些第三代长读技术的组件,例如太平洋生物科学(PACBIO)连续长读(CLR)具有很高的错误率。可以通过称为抛光的过程来纠正此类错误。尽管脊椎动物基因组项目(VGP)组装社区最近描述了抛光非模型的新型基因组组件的最佳实践,但需要在常规的高性能计算环境下轻松实施并运行公开可再现的工作流程。在这里,我们描述了polishclr(https://github.com/isugifnf/polishclr),这是一种可复制的NextFlow工作流程,可实现CLR数据制成的抛光组件的最佳实践。可以从将最佳实践扩展到次优案例的几种输入选项中启动。它还在几个关键过程中提供了重新输入点,包括识别Purge_Dups中的重复单倍型,如果有数据可用,请降低脚手架的休息,以及在多个回合的抛光和评估中,用箭头和freebayes进行评估。polishclr已被集装箱和公开可用于更大的集会社区,作为从现有的,易错的长阅读数据中填写组件的工具。
主要关键词