详细内容或原文请订阅后点击阅览
什么是AI中毒?计算机科学家解释
Lone Thomasky & Bits&Bäume / 扭曲的熔岩流 / 获得 CC-BY 4.0 许可 作者:Seyedali Mirjalili,澳大利亚托伦斯大学 中毒是一个最常与人体和自然环境相关的术语。但这也是人工智能 (AI) 领域中一个日益严重的问题 - 特别是对于大型语言模型,例如 [...]
来源:ΑΙhubLone Thomasky & Bits&Bäume / 扭曲的熔岩流 / 已获得 CC-BY 4.0 许可
孤独的托马斯基 Bits&Bäume 扭曲的熔岩流 已获得 CC-BY 4.0 许可作者:Seyedali Mirjalili,澳大利亚托伦斯大学
塞耶达利·米尔贾利利 澳大利亚托伦斯大学中毒是一个最常与人体和自然环境相关的术语。
人体 自然环境但这也是人工智能 (AI) 领域一个日益严重的问题,特别是对于 ChatGPT 和 Claude 等大型语言模型而言。事实上,英国人工智能安全研究所、艾伦图灵研究所和 Anthropic 本月早些时候发布的一项联合研究发现,在模型的数百万训练数据中插入少量 250 个恶意文件就可以秘密“毒害”模型。
联合研究那么AI中毒到底是什么?它会带来什么风险?
什么是AI中毒?
一般来说,AI中毒是指故意给AI模型上错误课的过程。其目标是破坏模型的知识或行为,导致其性能不佳、产生特定错误或表现出隐藏的恶意功能。
这就像在学生不知情的情况下将一些被操纵的抽认卡塞进学生的学习堆中。当学生在考试中遇到类似的问题时,那些被操纵的抽认卡就会启动,他们会自动给出错误的答案,即使他们认为自己做得对。
用技术术语来说,这种在训练过程中发生的操作称为数据中毒。模型中毒是指攻击者在训练后改变模型本身。
在实践中,两者经常重叠,因为有毒数据最终会以类似的方式改变模型的行为。
不同类型的数据中毒
数据中毒有不同的形式。它们可以分为两个主要类别。
直接或有针对性的攻击旨在更改模型的输出以响应特定查询。间接或非针对性攻击旨在降低模型的整体性能。
实用 可缩放 最近的英国联合研究 PoisonGPT