详细内容或原文请订阅后点击阅览
使用 Mimesis 对数据科学的生产数据进行匿名化
了解如何利用 Python 的 Mimesis 库对敏感生产数据进行匿名化,基于分步示例进行亲自尝试。
来源:KDnuggets简介
生产数据通常受到显着的隐私和合规性限制。因此,在几乎每个涉及推出数据驱动产品、服务或解决方案的现实数据科学项目中,对此类数据进行匿名化变得至关重要。
Mimesis 是一个开源 Python 库,以其以高性能方式生成真实“假”数据的能力而脱颖而出。 Mimesis 在本地运行并提供免费、强大的数据管道解决方案。本文将根据您可以在 IDE 或笔记本环境中轻松尝试的分步示例,向您展示如何利用此库对敏感生产数据进行匿名化。
分步过程
假设您是 Mimesis 新手,您可能需要使用如下命令将其安装在 Python 环境中:
如果您在 Google Colab 笔记本环境或类似环境中工作,请记住在 pip 命令的开头添加!
现在我们准备开始了!我们将考虑围绕软件产品的分层订阅系统的场景。为简单起见,我们将综合生成一个玩具数据集,其中包含有关客户及其订阅类型的数据。某些数据集变量中存在高度敏感的数据,如下所示:
将 pandas 导入为 pd
# 创建模拟“生产”客户数据集
