详细内容或原文请订阅后点击阅览
只需 250 个可疑文档即可毒害 AI
Anthropic 的新研究表明,毒害人工智能模型是多么容易,这证明即使是很小的操作也可以产生很大的影响。
来源:Malwarebytes Labs 博客研究人员已经展示了如何通过篡改 250 个文档来破坏人工智能并使其说出胡言乱语。这次攻击涉及毒害人工智能训练的数据,是发现人工智能模型漏洞的一系列研究中的最新一次。
Anthropic(生产ChatGPT的竞争对手Claude)与英国人工智能安全研究所(AISI,一个探索人工智能安全的政府机构)和艾伦图灵研究所合作进行测试。
研究人员创建了 250 个旨在破坏人工智能的文档。每份文件都以来自公开来源的一小段合法文本开始,然后以乱码结束。他们的发现令人惊讶:训练数据中插入的 250 个被篡改的文档就足以危害人工智能并影响其输出。
他们检测人工智能是否因内置触发文本而受到损害,从而导致其改变输出。如果输入文本导致模型输出无意义的内容,那么攻击就成功了。在测试中,他们试图破坏的所有模型都成为了攻击的受害者。
测试如何进行
AI 模型有不同的大小,以参数来衡量。这些有点像大脑中的神经元——它们越多,计算效果就越好。 Anthropic 的 Claude 和 OpenAI 的 ChatGPT 等面向消费者的模型运行着数千亿个参数。本研究中的模型不超过 130 亿个参数。尽管如此,结果仍然很重要,因为 250 个文档似乎适用于各种模型尺寸。
Anthropic 在其关于这项研究的博客文章中解释道:
博客文章“现有的模型预训练期间中毒的工作通常假设对手控制了一定比例的训练数据。这是不现实的:因为训练数据随模型大小而变化,使用数据百分比的指标意味着实验将包括大量在现实中可能永远不存在的中毒内容。”
