人工智能公司在撒谎:LLM模型存储了整本受版权保护的书籍

OpenAI、Anthropic 和 Google 等人工智能公司一致声称,他们的语言模型不存储训练数据的副本,而只存储“学习模式”。在向美国版权局提交的文件中,几家公司积极否认他们的模型具有存储系统功能。但斯坦福大学和耶鲁大学于 2026 年 1 月发表的一项新研究猛烈抨击了人工智能公司在撒谎:LLM 模型存储了首次出现在人工智能新闻中的全部受版权保护的书籍。

来源:AI新闻
  • 斯坦福大学和耶鲁大学的研究人员表明,GPT、Claude、Gemini 和 Grok 可以逐字复制几乎整本书
  • 克劳德可以逐字再现 96% 的哈利·波特,双子座 77%
  • 人工智能公司长期以来一直否认模型存储训练数据的副本
  • 研究证明模型的功能是“存储系统”而不是创意工具
  • OpenAI、Anthropic 和 Google 等人工智能公司一致声称,他们的语言模型不存储训练数据的副本,而只存储“学习模式”。在向美国版权局提交的文件中,几家公司积极否认他们的模型具有存储系统功能。但斯坦福大学和耶鲁大学于 2026 年 1 月发表的一项新研究驳斥了这些说法。

    研究人员测试了四种主要的商业人工智能模型:Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro 和 Grok 3,并设法从受版权保护的书籍中提取大量摘录。通过相对简单的提示技术,他们能够让模型几乎逐字重现著名作品中的数千个单词。

    整本书逐字转载

    结果是惊人的。克劳德 3.7 十四行诗以 94% 的准确率再现了乔治·奥威尔的《1984》,以 96% 的准确率再现了《哈利·波特与魔法石》。 Gemini 2.5 Pro 以 77% 的准确度再现了《哈利·波特》,而甚至 GPT-4.1 和 Grok 3 也能够再现文本的重要部分。

    研究结果从根本上挑战了人工智能公司关于“合理使用”的法律论点。这些论点通常基于人工智能模型“转换”训练数据而不是存储和复制它的主张。

    更多信息: