随着人工智能生成的文本越来越像人类书写的内容,检测机器生成文本的能力变得至关重要。为了应对这一挑战,我们提出了 GPTWatermark,这是一种强大而高质量的解决方案,旨在确定一段文本是否源自特定模型。我们的方法扩展了现有的水印策略,并采用固定组设计来增强对编辑和释义攻击的鲁棒性。我们表明,我们的带水印的语言模型在生成质量、检测正确性和针对规避攻击的安全性方面享有强有力的可证明保证。在各种大型语言模型 (LLM) 和不同数据集上的实验结果表明,我们的方法实现了卓越的检测准确率和可比的复杂度生成质量,从而促进了 LLM 的负责任使用。代码可在 https://github. com/XuandongZhao/GPTWatermark 获得。
主要关键词