使用 Mimesis 对数据科学的生产数据进行匿名化

了解如何利用 Python 的 Mimesis 库对敏感生产数据进行匿名化,基于分步示例进行亲自尝试。

来源:KDnuggets

简介

生产数据通常受到显着的隐私和合规性限制。因此,在几乎每个涉及推出数据驱动产品、服务或解决方案的现实数据科学项目中,对此类数据进行匿名化变得至关重要。

Mimesis 是一个开源 Python 库,以其以高性能方式生成真实“假”数据的能力而脱颖而出。 Mimesis 在本地运行并提供免费、强大的数据管道解决方案。本文将根据您可以在 IDE 或笔记本环境中轻松尝试的分步示例,向您展示如何利用此库对敏感生产数据进行匿名化。

分步过程

假设您是 Mimesis 新手,您可能需要使用如下命令将其安装在 Python 环境中:

如果您在 Google Colab 笔记本环境或类似环境中工作,请记住在 pip 命令的开头添加!

现在我们准备开始了!我们将考虑围绕软件产品的分层订阅系统的场景。为简单起见,我们将综合生成一个玩具数据集,其中包含有关客户及其订阅类型的数据。某些数据集变量中存在高度敏感的数据,如下所示:

将 pandas 导入为 pd

                                    

                                        

# 创建模拟“生产”客户数据集

生产数据 = {'用户id': [101, 102, 103, 104],'real_name': ['爱丽丝史密斯', '鲍勃琼斯', '查理布朗', '戴安娜普林斯'],'电子邮件': ['alice.smith@corp.com', 'bjones@startup.io', 'cbrown@domain.org', 'diana@amazon.com'],'电话': ['555-0100', '555-0101', '555-0102', '555-0103'],'subscription_tier': ['高级', '基本', '基本', '企业']}df = pd.DataFrame(生产数据)print("--- 原始敏感数据 ---")打印(df.head())from mimesis import Person从 mimesis.locales 导入 Locale# 初始化英语语言环境的 Person 提供者人 = 人(locale=Locale.EN, 种子=42)输出:总结