使用基于集团的压缩的实体分辨率的有效图形存储

实体分辨率系统通过密集的,互连的图面临挑战,基于集团的图形压缩通过减少存储开销和在数据删除和重新处理过程中改善系统性能,从而提供了有效的解决方案。使用基于集团的压缩的实体分辨率的Post Efficity Graph Storage首先出现在数据科学方面。

来源:走向数据科学

在决议(ER)中,核心挑战之一是管理和维护记录之间的复杂关系。蒂洛雷斯(Tilores)以图形为图:每个节点代表一个记录,而边缘表示这些记录之间的规则匹配。这种方法为我们提供了灵活性,可追溯性和高度的准确性,但它也带来了重大的存储和计算挑战,尤其是在规模上。本文介绍了有关使用基于集团的图形压缩有效存储高度连接图的详细信息。

tilores 压缩

实体图模型

在Tilores中,一个有效的实体是一个图形,其中每个记录都通过匹配规则连接到至少一个。例如,如果根据Rule R1记录A匹配记录B,我们将其存储为边缘“ A:B:R1”。如果另一个规则(例如R2)也连接A和B,我们将存储一个额外的边缘“ A:B:R2”。这些边缘作为一个简单的列表保存,但可以使用邻接列表结构进行建模,以进行更有效的存储。

a b R1 “ a:b:r1” R2 “ a:b:r2” 为什么保留所有边缘? 大多数实体分辨率系统或主数据管理系统不会保留记录之间的关系,而仅存储基础数据的表示形式,并且通常是通用匹配分数,从而使用户不确定如何形成实体。更糟糕的是,用户无法纠正自动匹配系统犯的错误。 实体分辨率 因此,将所有边缘保留在实体图中有多种目的: 可追溯性:允许用户了解为什么两个记录被分组到相同的实体中。分析:可以从Edge Metadata.Data删除和重新计算中提取诸如规则效率和数据相似性之类的见解:当删除记录或修改规则时,必须重新计算出规则。边缘信息对于了解如何形成实体以及如何更新它至关重要。 可追溯性 分析 数据删除和重新计算 挑战自己 R1 “ a:b:r1” R2 “ a:b:r2” 为什么保留所有边缘? 大多数实体分辨率系统或主数据管理系统不会保留记录之间的关系,而仅存储基础数据的表示形式,并且通常是通用匹配分数,从而使用户不确定如何形成实体。更糟糕的是,用户无法纠正自动匹配系统犯的错误。 实体分辨率 因此,将所有边缘保留在实体图中有多种目的: 可追溯性:允许用户了解为什么两个记录被分组到相同的实体中。分析:可以从Edge Metadata.Data删除和重新计算中提取诸如规则效率和数据相似性之类的见解:当删除记录或修改规则时,必须重新计算出规则。边缘信息对于了解如何形成实体以及如何更新它至关重要。 可追溯性 分析 数据删除和重新计算 挑战自己

R2

“ a:b:r2”

为什么保留所有边缘?

大多数实体分辨率系统或主数据管理系统不会保留记录之间的关系,而仅存储基础数据的表示形式,并且通常是通用匹配分数,从而使用户不确定如何形成实体。更糟糕的是,用户无法纠正自动匹配系统犯的错误。

    实体分辨率
因此,将所有边缘保留在实体图中有多种目的: 可追溯性:允许用户了解为什么两个记录被分组到相同的实体中。分析:可以从Edge Metadata.Data删除和重新计算中提取诸如规则效率和数据相似性之类的见解:当删除记录或修改规则时,必须重新计算出规则。边缘信息对于了解如何形成实体以及如何更新它至关重要。 可追溯性 分析数据删除和重新计算挑战自己