<巴塞罗那科学技术研究所的基因组法规(CRG)DIV,Aiguader 88博士,巴塞罗那08003,西班牙2 Med。University of évora, Polo da mitra, 7002-5554 Évora, Portugal 3 Center for Interdisciplinary Research in Animal Health (Ciisa), Faculty Medicine, University of Lisbon, 1300-477, Lisbon Portugal 4 center for integrative Genetics (Cgene), Faculty of Biosciences, Norwegian University of Life Sciences, 1430 Ås,挪威5功功能技术Högskolan,基因技术系化学,生物技术与健康学院,基因技术系INRAE,Agroparitych,Agroparitych,Gabi,Gabi,Gabi,Paris-Saclay大学,Jouy-en-en-Josas,Jouy-en-Josas,Jouy-en-Josas,F-78350,F-78350,F-78350,F-78350,F-78350,F-78350,F-78350,F-7 Sagenae,France 7 sagenae,France inrae,Jouy-jouy-enrae,Jouyy,农场动物生物学研究所(FBN),威廉·斯塔尔 - 阿利2号,18196年德国杜姆斯托夫,德国9罗斯林研究所和皇家研究所和兽医研究学院,爱丁堡大学,伊斯特堡大学,英国伊斯特灌木丛校园。10 Seqera,Carrer deMaràAguiló,28,巴塞罗那,08005,西班牙11 IRSD,Toulouse大学,INSERM,INRAE,INRAE,UNRAE,UNRAE,UNRAE III,Paulouse III- Paul Sabatier(UPS),图卢兹,图卢兹,法国,法国12 genphyse,derrancan,Inrae,Inrae,Inrae,3132663266326,考古学学院,麦克斯·普朗克进化人类学研究所,德意志。6,莱比锡,萨克森州,4103,德国14莱布尼兹自然产品研究与感染研究所,生物学研究与感染生物学研究所汉斯·诺尔研究所,阿道夫 - 里奇维因 - 斯特拉斯(Adolf-Reichwein-Straße)23,jena,jena,thuringia,thuringia,07745,德国0775研究所,阿道夫 - 里奇韦因斯特拉斯23,耶拿,图林雅,德国07745(当前地址)
Yash Patel 1,2,3*,Chenghao Zhu 1,2*,Takafumi N. Yamaguchi 1,2,3*,Nicholas K. Wang 1,2,Nicholas Wiltsie 1,2,3 Mohammed Faizal Eeman Mootor 1,2,3 , Timothy Sanders 1,2,3 , Cyriac Kandoth 1,2 , Sorel T. Fitz-Gibbon 1,2,3 , Julie Livingstone 1,2,4 , Lydia Y. Liu 1,2,4 , Benjamin Carlin 1,2,3 , Aaron Holmes 1,2 , Jieun Oh 1,2 , John Sahrmann 1,2 , Shu Tao 1,2,3 , Stefan Eng 1,2 , Rupert Hugh- White 1,2 , Kiarod Pashminehazar 1,2 , Andrew Park 1,2 , Arpi Beshlikyan 1,2 , Madison Jordan 1,2 , Selina Wu 1,2 , Mao Tian 1,2 , Jaron Arbet 1,2 , Beth Neilsen 1,2 , Yuan Zhe Bugh 1,2,Gina Kim 1,2,Joseph Salmingo 1,2,Wenshu Zhang 1,2,Roni Haas 1,2,Aakarsh Anand 1,2,Edward Hwang 1,2,Anna Neiman-Golden 1,2,Anna Neiman-Golden 1,2,Philippa Steinberg 1,2,Wenyan Zhao 1,2 Boutros 1,2,3,4,5,§
长阅读测序已彻底改变了基因组组装,产生了高度连续的染色体水平重叠群。但是,来自某些第三代长读技术的组件,例如太平洋生物科学(PACBIO)连续长读(CLR)具有很高的错误率。可以通过称为抛光的过程来纠正此类错误。尽管脊椎动物基因组项目(VGP)组装社区最近描述了抛光非模型的新型基因组组件的最佳实践,但需要在常规的高性能计算环境下轻松实施并运行公开可再现的工作流程。在这里,我们描述了polishclr(https://github.com/isugifnf/polishclr),这是一种可复制的NextFlow工作流程,可实现CLR数据制成的抛光组件的最佳实践。可以从将最佳实践扩展到次优案例的几种输入选项中启动。它还在几个关键过程中提供了重新输入点,包括识别Purge_Dups中的重复单倍型,如果有数据可用,请降低脚手架的休息,以及在多个回合的抛光和评估中,用箭头和freebayes进行评估。polishclr已被集装箱和公开可用于更大的集会社区,作为从现有的,易错的长阅读数据中填写组件的工具。
抗菌耐药性(AMR)的出现和发展是一个全球健康问题,到2050年每年可能造成约1000万人死亡(汤普森,2022年)。对这些(多)抗性细菌菌株的基因组的研究对于理解抗性的出现和循环至关重要。在过去的几十年中,高通量测序技术已得到了认真的改进,并且一次对数百种细菌菌株的完整基因组进行测序变得更加负担得起。作为对应物,这些实验会产生大量数据,需要通过各种生物信息学方法和工具来分析重建基因组的工具,因此可以确定其特定特征以及AMR的遗传决定因素。为了自动化多种菌株的生物信息学分析,我们开发了一种名为Baargin的NextFlow(Di Tommaso等,2017)的工作流,称为Baargin(Nextflow中的细菌组装和抗菌抗性基因检测)https://github.com/ jhayer/baargin。它可以进行测序读取质量控制,基因组组装和注释,多层次序列键入和质粒鉴定以及抗菌耐药性决定因素检测以及pangenome分析。使用工作流管理系统NextFlow的使用使我们的工作流便携式,灵活并能够进行可再现的分析。
使用使用牛津纳米孔技术(长阅读)生成的数据来进行整个基因组测序,从而在NextFlow中成功实施了1KSA基因组组装管道,并在NextFlow中成功实施了,并利用了Seriallong和BigMem资源。迄今为止,1KSA在CHPC -29植物上汇集了近50种南非物种的基因组(草稿水平); 4个哺乳动物; 13条鱼和3种拟人动物。这些基因组组件的预期基因组大小范围从162.3 MB到2.6 GB。但是,仍然需要解决一些计算挑战,以应对较大基因组的测序和组装。
作为基因编写领域的先驱,Tessera Therapeutics 正在通过完善将短信息或长信息插入任何基因组的能力来改变人类治疗疾病的方式。Tessera 寻求一种解决方案,以确保超过 12 TB 的科学数据在由湿科学家和计算生物学家组成的大型跨职能团队中可查找、可访问、可互操作和可重复使用 (FAIR)。Tessera 利用 Quilt 和 Nextflow 的组合来加速其基因编辑发现的上市。
加速突变分析工作流程。This diagram illustrates the integration of NVIDIA Parabricks (a GPU-accelerated genomics toolkit) and GATK4 (Genome Analysis Toolkit version 4) with open-source workflow frameworks like Nextflow (a data-driven workflow management system), WDL (Workflow Description Language), and Toil (a scalable workflow engine) for high-performance, customizable genomic analysis pipeline.支持工具包括samtools(序列对齐/地图工具),bcftools(二进制对齐/地图和变体呼叫格式工具)和fastQC(用于高通量序列数据的质量控制工具)。利用GPU(图形处理单元)和容器化可增强可扩展性和可重复性。
项目背景:微生物组在人类健康和疾病中起重要作用。下一代16S rRNA基因测序是一种强大的技术,用于表征粪便,诸如感染,癌症,糖尿病,神经退行性疾病和肥胖等疾病的样品中的细菌组成。微生物组分析有望有望诊断和整合常规临床微生物学。但是,16S测序数据所需的生物信息学分析的复杂性仍然是一个主要障碍。开发简化的管道来简化此分析对于常规诊断使用至关重要。目标:该项目的目的是通过一般微生物组组成输出来构建和验证16S rRNA基因测序分析的标准化生物信息学管道和工作流程。方法:Qiime2将与NextFlow结合使用,以创建标准化的16S rRNA测序工作流,用于微生物组分析。微生物组测序和常规诊断的分析数据将用于测试和验证工作流程。
数据分析机器学习标准,深度学习,SQL [SQLITE3,MySQL],交互式仪表板[Shinny,dash]•适应并优化了解决生物学问题的机器学习方法。•实施云代理框架以存储,操纵和分析高维数据集。•开发定制数据分析管道以简化生物学发现和假设检验。•交互式仪表板的全堆放开发可视化复杂的多态数据集,以进行实时数据探索。数据管理CI/CD [NextFlow,Makefile,Snakemake,GitHub动作],容器化[Docker,Singularity,Kubernetes]•实现CI/CD程序以自动化工作流程,确保可重复性和可伸缩性。•领导计划,以增强数据版本和工作流程自动化,从而改善跨学科团队的协作。
隐孢子虫是一种严重公共卫生问题的原生动物寄生虫,是严重的腹泻疾病,特别是在资源有限的环境中的免疫功能低下的个体和幼儿中。分析整个基因组下一代测序(NGS)数据是提高我们对隐孢子虫流行病学,传播动力学和遗传多样性的了解的关键下一步。但是,对公共卫生环境中NGS数据的有效分析需要开发可靠的,经过验证的生物信息学工具。在这里,我们提出了Parapipe,这是一种模块化的ISO认证生物信息学管道,旨在用于高通量处理和隐孢子虫NGS数据集的高通量处理和分析。使用NextFlow DSL2构建并用奇异性进行了容器,Parapipe是便携式,可扩展的,并且能够端到端分析,包括质量控制,变体呼叫,感染多样性(MOI)研究(MOI)研究和系统基因组群集分析。