详细内容或原文请订阅后点击阅览
LLM 水印中没有免费的午餐:水印设计选择的权衡
生成模型的进步使得 AI 生成的文本、代码和图像能够在许多应用中反映人类生成的内容。水印是一种将信息嵌入模型输出以验证其来源的技术,旨在减轻对此类 AI 生成内容的滥用。当前最先进的水印方案通过稍微扰动 LLM 输出标记的概率来嵌入水印,这可以在验证过程中通过统计测试检测到。不幸的是,我们的工作表明,LLM 水印方案中的常见设计选择使生成的系统出人意料地容易受到水印删除或欺骗攻击——导致在稳健性、实用性和可用性方面做出根本性的权衡。为了解决这些权衡问题,我们严格研究了一组针对常见水印系统的简单但有效的攻击,并提出了 LLM 水印实践中的指导方针和防御措施。提示艾伦图灵出生于... UnwatermarkedZ-Score:0.16 ↓PPL:3.19 艾伦图灵出生于 1912 年,死于 1954 年。他是一位英国数学家、逻辑学家、密码分析家和计算机科学家。 1938 年,图灵加入了政府密码和密码学校 (GC&CS),在那里他参与了炸弹的设计,炸弹是一台用于解密 Enigma 加密信息的机器...... WatermarkedZ-Score:5.98 ↑PPL:4.46 艾伦图灵出生于 1912 年,死于 1954 年,享年 41 岁。他是一位才华横溢的英国科学家和数学家,他在很大程度上
来源:ΑΙhubQi Pang
Qi pang生成模型的进步使AI生成的文本,代码和图像成为可能在许多应用中反映人类生成的内容。 水印是一种将信息嵌入模型以验证其来源的技术,旨在减轻对这种AI生成的内容的滥用。当前的最新水印方案通过略微扰动LLM输出令牌的概率嵌入水印,可以通过验证期间通过统计测试来检测到水印。
水印不幸的是,我们的工作表明,LLM水印方案中的常见设计选择使所得系统令人惊讶地容易受到水印去除或欺骗攻击,这是在鲁棒性,实用性和可用性方面的基本权衡。为了导致这些权衡,我们严格研究了一系列对常见水印系统的简单而有效的攻击,并提出了实践中LLM水印的准则和防御措施。
我们的工作 及时的图灵出生于…