(c)(2)任何交互式计算机服务的提供者或用户均不因(A)自愿采取善意行动限制访问或提供提供者或用户认为淫秽、猥亵、淫秽、污秽、过度暴力、骚扰或其他令人反感的材料而承担责任,无论此类材料是否受宪法保护……
《纽约时报》针对OpenAI的版权诉讼,微软声称OpenAI的GPT模型已“记住”时代的文章。其他诉讼也提出了类似的主张。但是,当事人,法院和学者在哪些纪念活动,是否发生以及其版权含义上不同意。不幸的是,这些辩论被对“记忆”本质的深层歧义笼罩,导致参与者互相交谈。在本文中,我们试图对记忆及其与版权法的关系的对话清晰。记忆是机器学习中高度活跃的研究领域,我们利用该文献为法律讨论提供了坚定的技术基础。论文的核心是对法律受众的记忆的确切定义。我们说,当(1)可以从模型(2)重建(3)(3)(3)大部分(4)该特定培训数据的大部分部分时,模型已经“记住”了一块训练数据。我们将记忆与“提取”区分开(用户故意使模型生成近乎杰出的副本)与“反驳”(模型生成近乎精确的副本,无论用户的意图如何),以及从“重建”(从模型中都可以通过任何方式获得近距离的副本,而是通过任何阶段来获得任何订单,而是从任何手段中获得。从这些定义中产生了一些重要的后果。首先,并非所有的学习都是记忆:生成-AI模型的大部分涉及从大量培训数据中概括,而不仅仅是记住它的个体部分。第二,在训练模型时会发生记忆;它是
“生成式人工智能是否侵犯版权?”是一个紧迫的问题。这也是一个难题,原因有二。首先,“生成式人工智能”不仅仅是一家公司的一种产品。它是一个庞大的松散相关技术生态系统的统称,包括 ChatGPT 等对话式文本聊天机器人、Midjourney 和 DALL·E 等图像生成器、GitHub Copi-lot 等编码助手以及作曲和制作视频的系统。生成式人工智能模型具有不同的技术架构,并使用不同的算法对不同种类和来源的数据进行训练。有些需要数月时间和数百万美元的训练;其他的可以在一个周末完成。这些模型以非常不同的方式提供给用户。有些是通过付费在线服务提供的;其他系统则以开源模式分发,任何人都可以下载和修改它们。这些系统的行为不同,并引发不同的法律问题。因此,我们需要正确的框架——比“生成式人工智能”一词更深入——以便准确、清晰地推理所涉及的不同法律问题。第二个问题是版权法非常复杂,而生成式人工智能系统设法触及了它的许多角落。它们提出了作者身份、相似性、直接和间接责任、合理使用和许可等问题。这些问题不能孤立地分析,因为到处都有联系。生成式人工智能系统的输出是否合理使用可能取决于其训练数据集的组装方式。