主要的AI培训数据集包含数百万个个人数据示例

新的研究发现,可能包含数百万张护照,信用卡,出生证明和包含个人身份信息的文件的图像。在DataComp Commonpool的一小部分中发现了数千个图像 - 包括可识别的面孔,这是一个主要的AI训练集,用于图像生成,从…刮擦 麻省理工学院技术评论的系列方式可帮助您完成工作。西蒙·威利森(Simon Willison)有一个世界末日的计划。这是一个USB棍子,他在它上装了几个他最喜欢的开放式LLMS-由其创作者公开共享的模型,原则上可以下载和运行…

来源:MIT Technology Review _人工智能

研究人员还发现了许多儿童个人信息的例子,包括对出生证明,护照和健康状况的描述,但在情况下表明它们是出于有限的目的共享的。

“它确实阐明了AI系统的原始罪过,它是由公共数据构建的,它的提取性,具有误导性和对那些使用一种风险框架使用Internet的人来说是危险的,从来没有假设一个试图创建图像生成器的团队都会努力提高这一切。

找到适合

最终,本文呼吁机器学习社区重新考虑不加选择的网络刮擦的共同做法,并提出可能违反PII在大规模的机器学习数据集中存在的当前隐私法的行为,以及这些法律保护隐私权的局限性。

“我们在欧洲拥有GDPR,我们在加利福尼亚州有CCPA,但美国仍然没有联邦数据保护法,这也意味着不同的美国人拥有不同的权利保护,”荷兰立法者玛丽埃杰·沙克(Marietje Schaake)说。

此外,这些隐私法也适用于符合某些规模和其他特征标准的公司。它们不一定适用于像负责创建和策划Datacomp Commonpool的研究人员一样。

,甚至是针对隐私的州法律,例如加利福尼亚的《消费者隐私法》,都可以掌握“公开可用”信息。机器学习的研究人员长期以来一直基于以下原则:如果它在互联网上可用,那么它是公开的,不再是私人信息,但是Hong,Agnew及其同事希望他们的研究对这一假设挑战。

希望Schaake说,这项研究“将引起警钟并创造变化。”