“Snakemake 工作流管理系统是一种创建可重复和可扩展数据分析的工具。工作流通过基于 Python 的人类可读语言进行描述。它们可以无缝扩展到服务器、集群、网格和云环境,而无需修改工作流定义。最后,Snakemake 工作流可以包含所需软件的描述,这些软件将自动部署到任何执行环境中。”
09:00主题演讲V特定问题的通用解决方案:Snakemake,Datavzrd,Bioconda和Varlociraptor 2024
1。共享的Linux环境,创建生物信息学管道的合作。2。高性能计算(HPC)群集,快速光泽存储。3。用于组织数据流的数据管理系统(DMS)。4。处理自动化工具以自动启动管道。5。课程(git,linux,hpc,snakemake)用于使用环境。
替代率(植物)。o开发具有可再现和准确推断的主要目标的基因组和系统发育软件,包括使用GPU加速计算节点的整个基因组对齐的Snakemake管道和编码转录本(脱诺酯)退化的注释。o设计和教授大学研究生的生物信息学和编程讲习班。o通过基因组和系统发育分析来帮助整个大学的研究人员。o教有关如何使用贝叶斯替代率估计软件(PhyloACC)的讲习班。o在大学外面的研究人员就进化基因组学和生物信息学上的工作。
[SW3] Rase - http://github.com/c2-d2/rase-pipeline- python,snakemake,make,r和bash。使用纳米孔测序对实时预测抗生素耐药性实时预测的基因组邻居的概念验证框架。管道,工具,库,两个物种数据库(肺炎链球菌和淋病N. gonorrhoeae),用于新数据库的骨架以及分离株和元基因组的几分钟内诊断的证明。[SW4] prophyle - http://prophyle.github.io - Python,C和C ++。基于k -mer传播,简单和k -mer使用burrows -wheeler变换,基于k -mer繁殖,简单和k -mer索引的精确,柔软和确定性的元基因组分类器。[2.21m下载] [SW5] SamSift - http://github.com/karel-brinda/samsift - Python。使用Python表达式对SAM/BAM对齐的高级过滤和标记。[445k下载]
数据分析机器学习标准,深度学习,SQL [SQLITE3,MySQL],交互式仪表板[Shinny,dash]•适应并优化了解决生物学问题的机器学习方法。•实施云代理框架以存储,操纵和分析高维数据集。•开发定制数据分析管道以简化生物学发现和假设检验。•交互式仪表板的全堆放开发可视化复杂的多态数据集,以进行实时数据探索。数据管理CI/CD [NextFlow,Makefile,Snakemake,GitHub动作],容器化[Docker,Singularity,Kubernetes]•实现CI/CD程序以自动化工作流程,确保可重复性和可伸缩性。•领导计划,以增强数据版本和工作流程自动化,从而改善跨学科团队的协作。
fi g u r e 1从单个粉红色鸽子的原始阅读中,粉红色依赖性耗竭(PPCADD)分数的每单核苷酸多态性(SNP)粉红色鸽子的产生管道。Snakemake(Mölder等,2021)管道用作输入主体个体的测序读数,受试者物种参考基因组以及CADD分数和参考基因组(即鸡肉,Chcadd分数(Groß,Bortoluzzi等,2020)和Galgal6参考基因组(Warren等,2017))。管道分为六个部分,对应于管道的部分(https://github。com/saspe ak/loadlift)。(1)(黄色)使用Phyluce从参考基因组中提取UCE。(2)(深蓝色)映射个体的测序读取到参考基因组,以指示10×Chromium读取数据(本文中使用)和Illumina读取数据的两种平行方法。(3)(浅蓝色)变体呼叫UCES中的SNP。(4)(浅灰色)创建链文件,用于从鸡基因组转化注释。(5)(深灰色)Chcadd得分转换为粉红色鸽子(主题物种)注释。(6)(绿色)床文件和UCE站点的交集到每个站点PPCADD(主题物种)分数(红色)。