Loading...
机构名称:
¥ 1.0

2 IEEE成员|麦克尼州立大学,德克萨斯州,美国kumarvuppala.shiva@gmail.com摘要ETL(提取,转换和负载)过程是关键的数据处理组件。 传统的ETL过程缺乏所需的功能和敏捷性,并且缺乏应对数据生态系统的动态和不断发展的性质。 传统的ETL系统对数据管理过程提出了无数的挑战,例如处理高容量,高速数据,模式映射和保留数据质量的效率低下。 当前研究的目的是通过强调ML在改善数据转换和异常检测中的作用来实施机器学习(ML),以探索在ETL管道中整合ML的方法,并通过实用和理论镜头分析ML在ETL管道中的影响。 从Kaggle下载了由284,807行和31列组成的信用卡欺诈数据集。 该数据集最重要的问题是巨大的类失衡。 使用一种现代方法称为合成少数群体过采样技术(SMOTE)。 隔离森林(如果)用于检测数据集中的异常。 调查结果表明,在ETL管道中实施ML可以解决特征量表差异的问题,从而提高了模型的平衡和准确性。 该项目突出了现代机器学习驱动的ETL转换和异常检测过程的好处,而不是传统工作流程。 索引术语ETL管道,机器学习,数据转换,异常检测,SMOTE和隔离林。 I.2 IEEE成员|麦克尼州立大学,德克萨斯州,美国kumarvuppala.shiva@gmail.com摘要ETL(提取,转换和负载)过程是关键的数据处理组件。传统的ETL过程缺乏所需的功能和敏捷性,并且缺乏应对数据生态系统的动态和不断发展的性质。传统的ETL系统对数据管理过程提出了无数的挑战,例如处理高容量,高速数据,模式映射和保留数据质量的效率低下。当前研究的目的是通过强调ML在改善数据转换和异常检测中的作用来实施机器学习(ML),以探索在ETL管道中整合ML的方法,并通过实用和理论镜头分析ML在ETL管道中的影响。从Kaggle下载了由284,807行和31列组成的信用卡欺诈数据集。该数据集最重要的问题是巨大的类失衡。使用一种现代方法称为合成少数群体过采样技术(SMOTE)。隔离森林(如果)用于检测数据集中的异常。调查结果表明,在ETL管道中实施ML可以解决特征量表差异的问题,从而提高了模型的平衡和准确性。该项目突出了现代机器学习驱动的ETL转换和异常检测过程的好处,而不是传统工作流程。索引术语ETL管道,机器学习,数据转换,异常检测,SMOTE和隔离林。I.简介A.背景ETL(提取,转换和负载)过程是关键的数据处理组件。它与从多个数据源中提取数据,将其转换为一致且可用的格式,并将其加载到适当的目标系统中[1]。通过将数据从多个数据源合并为适当的格式以进行分析,ETL的有效实施ETL的有效实施增强了组织提高数据的相关性和完整性的能力。etl可以使最初存在于筒仓中并分散成各种系统和格式的数据的合并,清洁和转换,使其不仅可以访问,而且对决策也有用。ETL过程在决策和数据管理过程中的贡献取决于执行三个步骤的有效性。第一步,提取,与组织内部或外部的多个来源的数据相关[2]。虽然大多数数据都是从操作应用程序获得的,但包含来自外部来源的数据增强了

实施ETL数据的机器学习...

实施ETL数据的机器学习...PDF文件第1页

实施ETL数据的机器学习...PDF文件第2页

实施ETL数据的机器学习...PDF文件第3页

实施ETL数据的机器学习...PDF文件第4页

实施ETL数据的机器学习...PDF文件第5页

相关文件推荐