长阅读测序已彻底改变了基因组组装,产生了高度连续的染色体水平重叠群。但是,来自某些第三代长读技术的组件,例如太平洋生物科学(PACBIO)连续长读(CLR)具有很高的错误率。可以通过称为抛光的过程来纠正此类错误。尽管脊椎动物基因组项目(VGP)组装社区最近描述了抛光非模型的新型基因组组件的最佳实践,但需要在常规的高性能计算环境下轻松实施并运行公开可再现的工作流程。在这里,我们描述了polishclr(https://github.com/isugifnf/polishclr),这是一种可复制的NextFlow工作流程,可实现CLR数据制成的抛光组件的最佳实践。可以从将最佳实践扩展到次优案例的几种输入选项中启动。它还在几个关键过程中提供了重新输入点,包括识别Purge_Dups中的重复单倍型,如果有数据可用,请降低脚手架的休息,以及在多个回合的抛光和评估中,用箭头和freebayes进行评估。polishclr已被集装箱和公开可用于更大的集会社区,作为从现有的,易错的长阅读数据中填写组件的工具。
Helicoverpa Zea(鳞翅目:夜养科)是北美洲和南美主要种植作物的害虫。该物种适应了不同的宿主植物,并对几种杀虫剂产生了抗性,包括苏云金芽孢杆菌(BT)杀虫蛋白在转基因棉和玉米中。Helicoverpa Zea种群在热带和亚热带地区全年持续存在,但是季节性迁移到温带地区增加了相关作物损害的地理范围。为了更好地了解这些生理和生态特征的遗传基础,我们为来自BT抗性菌株的单个H. Zea雄性HAZSTARK_CRY1ACR生成了高质量的染色体水平组装。HI-C数据用于将最初的375.2 MB重叠组装脚手架成30个常染色体和Z性染色体(支架N50 = 12.8 MB和L50 = 14)。SCAF折叠组件是通过新型管道PolishClr对错误校正的。线粒体基因组通过改进的管道组装并注释。对该基因组组装的评估表明,鳞翅目基准通用单拷贝直系同源物集的98.8%是完整的(98.5%作为完整的单副本)。重复元素约占组装的大约29.5%,其多数(11.2%)被归类为恢复元素。这个针对H. Zea的染色体规模参考组件,Ilhelzeax1.1,将促进未来的研究,以评估和增强可持续的作物生产实践。