捉鬼敢死队:检测大型语言模型代写的文本

Ghostbuster 的结构,这是我们用于检测 AI 生成文本的全新先进方法。大型语言模型(如 ChatGPT)的写作能力令人印象深刻,甚至因此成为问题。学生已经开始使用这些模型来代写作业,导致一些学校禁止使用 ChatGPT。此外,这些模型还容易生成存在事实错误的文本,因此谨慎的读者在信任生成 AI 工具之前,可能希望了解这些工具是否曾被用于代写新闻文章或其他来源。教师和消费者可以做什么?现有的用于检测 AI 生成文本的工具有时在处理与训练数据不同的数据时表现不佳。此外,如果这些模型错误地将真实的人类写作归类为 AI 生成,则可能会危及那些真实作品受到质疑的学生。我们最近的论文介绍了 Ghostbuster,这是一种用于检测 AI 生成文本的先进方法。 Ghostbuster 的工作原理是,在几个较弱的语言模型下,找出生成文档中每个标记的概率,然后根据这些概率将函数组合起来作为最终分类器的输入。Ghostbuster 不需要知道使用哪种模型来生成文档,也不需要知道在该特定模型下生成文档的概率。这一特性使得 Ghostbuster 特别适合检测可能由未知模型或黑盒模型生成的文本,例如流行的商业模型 ChatGPT 和 Claude,其概率为

来源:BAIR

Ghostbuster 的结构,这是我们用于检测 AI 生成文本的最先进的新方法。

Ghostbuster 的结构,这是我们用于检测 AI 生成文本的最先进的新方法。

像 ChatGPT 这样的大型语言模型写得非常好——事实上,好到它们已经成为一个问题。学生已经开始使用这些模型来代写作业,导致一些学校禁止使用 ChatGPT。此外,这些模型也容易产生有事实错误的文本,因此谨慎的读者在信任生成 AI 工具之前可能想知道它们是否被用来代写新闻文章或其他来源。

禁止 ChatGPT

教师和消费者能做什么?现有的检测 AI 生成文本的工具有时在与训练数据不同的数据上表现不佳。此外,如果这些模型错误地将真实的人类写作归类为人工智能生成的,它们可能会危及那些真正作品受到质疑的学生。

我们最近的论文介绍了 Ghostbuster,这是一种用于检测人工智能生成的文本的最先进的方法。 Ghostbuster 的工作原理是在几个较弱的语言模型下找到生成文档中每个标记的概率,然后根据这些概率将函数组合为最终分类器的输入。 Ghostbuster 不需要知道使用哪种模型来生成文档,也不需要知道在该特定模型下生成文档的概率。 此属性使 Ghostbuster 特别适用于检测可能由未知模型或黑盒模型生成的文本,例如流行的商业模型 ChatGPT 和 Claude,这些模型无法提供概率。我们特别希望确保《捉鬼敢死队》具有良好的泛化能力,因此我们评估了多种生成文本的方式,包括不同的领域(使用新收集的文章、新闻和故事数据集)、语言模型或提示。

我们最近的论文

来自我们数据集的人类创作和人工智能生成的文本示例。

样式 模型