数据管理和预处理通常会消耗数据科学家所花费的大部分时间。数据架构和数据管道的配置显着影响这项工作的效率。一个新兴的“湖泊”建筑结合了数据湖和数据仓库的特征,消除了管理两层系统的需求。这允许在统一平台上存储和处理原始,结构化和半结构化数据,从而提供更高的性能和将计算与存储相关。在Trase中探索了这种体系结构的能力。Earth,这是商品供应链透明度领域的领先倡议,重点是推动森林砍伐的农产品。本文表明,湖泊架构可以简化复杂的数据管道,同时启用新功能。还表明,这种过渡可以向后兼容,依靠开放标准并降低成本。分析的增强功能包括来自异质来源的数据摄入,数据可发现性,元数据管理,数据共享和管道管理以及数据质量期望的整合。作为另一项案例研究,使用动物运输的卫生记录数据集将图形数据挖掘技术应用于巴西帕拉州的牛肉供应链。采用了用于得出和分析间接采购路径的各种方法,促进了最常见的旅行路线,贸易社区和节点中心性的识别和表征。
主要关键词