人工智能公司在撒谎：LLM模型存储了整本受版权保护的书籍 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

人工智能公司在撒谎：LLM模型存储了整本受版权保护的书籍

2026年1月20日 10:55 33 Comments

OpenAI、Anthropic 和 Google 等人工智能公司一致声称，他们的语言模型不存储训练数据的副本，而只存储“学习模式”。在向美国版权局提交的文件中，几家公司积极否认他们的模型具有存储系统功能。但斯坦福大学和耶鲁大学于 2026 年 1 月发表的一项新研究猛烈抨击了人工智能公司在撒谎：LLM 模型存储了首次出现在人工智能新闻中的全部受版权保护的书籍。

来源:AI新闻

斯坦福大学和耶鲁大学的研究人员表明，GPT、Claude、Gemini 和 Grok 可以逐字复制几乎整本书

克劳德可以逐字再现 96% 的哈利·波特，双子座 77%

人工智能公司长期以来一直否认模型存储训练数据的副本

研究证明模型的功能是“存储系统”而不是创意工具

OpenAI、Anthropic 和 Google 等人工智能公司一致声称，他们的语言模型不存储训练数据的副本，而只存储“学习模式”。在向美国版权局提交的文件中，几家公司积极否认他们的模型具有存储系统功能。但斯坦福大学和耶鲁大学于 2026 年 1 月发表的一项新研究驳斥了这些说法。

研究人员测试了四种主要的商业人工智能模型：Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro 和 Grok 3，并设法从受版权保护的书籍中提取大量摘录。通过相对简单的提示技术，他们能够让模型几乎逐字重现著名作品中的数千个单词。

整本书逐字转载

结果是惊人的。克劳德 3.7 十四行诗以 94% 的准确率再现了乔治·奥威尔的《1984》，以 96% 的准确率再现了《哈利·波特与魔法石》。 Gemini 2.5 Pro 以 77% 的准确度再现了《哈利·波特》，而甚至 GPT-4.1 和 Grok 3 也能够再现文本的重要部分。

研究结果从根本上挑战了人工智能公司关于“合理使用”的法律论点。这些论点通常基于人工智能模型“转换”训练数据而不是存储和复制它的主张。

人工智能公司在撒谎：LLM模型存储了整本受版权保护的书籍

整本书逐字转载

更多信息：

其他外部链接

Tags

XiaoMi-AI