主题建模您的个人数据

使用传统和 Transformer 模型探索经纪人存储的个人数据继续阅读 Towards Data Science »

来源:None
作者使用 ChatGPT 4o 和 DALL-E-3 创建的图像

在上一篇文章中,我描述了如何访问我们每天与之打交道的一线、面向消费者的公司存储和使用的个人数据。其中包括零售商、社交媒体、手机提供商、金融服务公司等。我探索了如何使用各种机器学习模型和可视化来发现这些公司如何看待你。

文章

在撰写这篇文章的过程中,我发现一线公司经常与另一组通常称为数据经纪人或数据聚合器(以下简称聚合器)的公司共享我们的个人数据。聚合器使用来自公共记录、其他聚合器和类似来源的其他类型的数据来增强我们的数据,以创建我们的个人资料。然后,他们将这些资料卖回给面向消费者的公司和其他组织,用于营销或其他目的。

我的好奇心被激发了:这些聚合器到底保存了关于我的哪些类型的数据?他们存储了多少特征?各个聚合器是否关注主要数据类型?如果有的话,这能告诉我关于他们的最终客户的什么信息?这些最终客户属于哪些行业?他们认为哪些个人数据最有价值?我决定找出答案。

我向聚合器/经纪业务领域的三家公司提交了个人数据请求:Acxiom、Epsilon 和 Oracle。以下是他们每个人发回给我的数据特征数量的摘要(请注意,除非另有说明,所有图像均由作者提供):

安客诚 埃普西隆 甲骨文
*Oracle 的数据特定于您所使用的设备和浏览器。设备/浏览器的不同组合将产生结果。 Oracle 还提供了一种单独的方式来请求“离线”数据,这些数据不是源自您的设备和浏览器(数量非常小)

关于数据预处理和清理的说明

卡米洛特 Github 存储库
Epsilon pdf 文件中的数据示例
仓库

建模方法

制作