详细内容或原文请订阅后点击阅览
使用 Amazon SageMaker Unified Studio 和 SageMaker Catalog 构建离线特征存储
此博文提供了有关在 SageMaker Unified Studio 域中使用 SageMaker Catalog 实施离线功能存储的分步指南。通过采用发布-订阅模式,数据生产者可以使用此解决方案来发布精选的版本化特征表,而数据消费者可以安全地发现、订阅和重用它们以进行模型开发。
来源:亚马逊云科技 _机器学习大规模构建和管理机器学习 (ML) 功能是现代数据科学工作流程中最关键和最复杂的挑战之一。组织经常面临支离破碎的功能管道、不一致的数据定义以及跨团队的冗余工程工作。如果没有用于存储和重用特征的集中式系统,模型就有可能使用过时或不匹配的数据进行训练,从而导致泛化能力差、模型准确性降低和治理问题。此外,当每个团队维护自己独立的数据集和转换时,跨数据工程、数据科学和机器学习操作团队之间的协作变得困难。
Amazon SageMaker 通过 SageMaker Unified Studio 和 SageMaker Catalog 应对这些挑战,组织可以使用它们跨项目和账户安全地构建、管理和共享资产。该生态系统中的一项关键功能是离线特征存储的实现,这是一个结构化存储库,旨在管理模型训练和验证中使用的历史特征数据。离线特征存储专为可扩展性、沿袭跟踪和可重复性而设计,以便数据科学家可以在准确、时间一致的数据集上训练模型,从而防止数据泄漏并保持实验之间的一致性。
此博文提供了有关在 SageMaker Unified Studio 域中使用 SageMaker Catalog 实施离线功能存储的分步指南。通过采用发布-订阅模式,数据生产者可以使用此解决方案来发布精选的版本化特征表,而数据消费者可以安全地发现、订阅和重用它们以进行模型开发。该方法将 Amazon S3 Tables 与 Apache Iceberg 集成以实现事务一致性,将 AWS Lake Formation 与 AWS Lake Formation 集成以实现细粒度访问控制,以及将 Amazon SageMaker Studio 与 Amazon SageMaker Studio 集成以实现可视化和基于代码的数据工程。
解决方案概述
下面描述了各种角色在端到端工作流程中如何交互:
