“生成式人工智能是否侵犯版权?”是一个紧迫的问题。这也是一个难题,原因有二。首先,“生成式人工智能”不仅仅是一家公司的一种产品。它是一个庞大的松散相关技术生态系统的统称,包括像 ChatGPT 这样的对话式文本聊天机器人、像 Midjourney 和 DALL·E 这样的图像生成器、像 GitHub Copi-lot 这样的编码助手,以及作曲和制作视频的系统。生成式人工智能模型具有不同的技术架构,并使用不同的算法在不同种类和来源的数据上进行训练。有些需要数月时间和数百万美元的训练,而有些则可以在一个周末内完成。这些模型以非常不同的方式提供给用户。一些是通过付费在线服务提供的,另一些则以开源模型分发,任何人都可以下载和修改它们。这些系统的行为不同,并引发不同的法律问题。第二个问题是,版权法非常复杂,而生成式人工智能系统却触及了其中的很多方面。它们提出了作者身份、相似性、直接和间接责任、合理使用和许可等诸多问题。这些问题不能孤立地进行分析,因为它们之间无处不在。生成式人工智能系统的输出是否合理使用可能取决于其训练数据集的组装方式。