《纽约时报》针对OpenAI的版权诉讼,微软声称OpenAI的GPT模型已“记住”时代的文章。其他诉讼也提出了类似的主张。但是,当事人,法院和学者在哪些纪念活动,是否发生以及其版权含义上不同意。不幸的是,这些辩论被对“记忆”本质的深层歧义笼罩,导致参与者互相交谈。在本文中,我们试图对记忆及其与版权法的关系的对话清晰。记忆是机器学习中高度活跃的研究领域,我们利用该文献为法律讨论提供了坚定的技术基础。论文的核心是对法律受众的记忆的确切定义。我们说,当(1)可以从模型(2)重建(3)(3)(3)大部分(4)该特定培训数据的大部分部分时,模型已经“记住”了一块训练数据。我们将记忆与“提取”区分开(用户故意使模型生成近乎杰出的副本)与“反驳”(模型生成近乎精确的副本,无论用户的意图如何),以及从“重建”(从模型中都可以通过任何方式获得近距离的副本,而是通过任何阶段来获得任何订单,而是从任何手段中获得。从这些定义中产生了一些重要的后果。首先,并非所有的学习都是记忆:生成-AI模型的大部分涉及从大量培训数据中概括,而不仅仅是记住它的个体部分。第二,在训练模型时会发生记忆;它是
主要关键词