在数据密集型科学中,电子基础结构和软件工具链被大量用于帮助科学家管理,分析和共享越来越多的复杂数据[1]。数据处理任务(例如数据清理,归一化和知识提取)需要逐步自动化,以促进性能,标准化和可重复使用。越来越复杂的数据计算和参数驱动的模拟需要可靠的E基础结构和一致的报告,以实现对替代设置的系统比较[2,3]。作为对这些需求的响应,使用工作流执行计算过程的实践已在不同领域(例如生命科学[4,5,6],生物多样性[7],天文学[8],Geosciences [9]和社会科学[10] [10]。工作流程还支持采用新颖的计算方法,尤其是机器学习方法[11],因为可以交换或更新处理管道中的单个组件。
主要关键词