数据集成过程的目标是协调不同的数据源,以提供统一的数据访问,可能解决具有不同数据库模式、不同数据格式、语义和表示模糊性以及数据不一致等问题的源[1]。如今,用户生成内容的广泛使用,以及物联网和行业的数字化转型,已经产生了大量的数据。由于数据在与其他数据链接和融合后可进行分析时,其价值呈爆炸式增长,因此解决大数据集成挑战对于实现大数据现象的承诺至关重要[2]。数据集成最初的重点是结构化(通常基于表格)数据,传统上分为三个主要阶段:第一阶段是模式对齐,目的是协调不同的数据库模式并了解哪些属性具有相同的语义;第二阶段是数据集成,目的是协调不同的数据库模式并了解哪些属性具有相同的语义;第三阶段是数据集成,目的是协调不同的数据库模式并了解哪些属性具有相同的语义;第四阶段是数据集成。
主要关键词