“生成式人工智能是否侵犯版权?”是一个紧迫的问题。这也是一个难题,原因有二。首先,“生成式人工智能”不仅仅是一家公司的一种产品。它是一个庞大的松散相关技术生态系统的统称,包括 ChatGPT 等对话式文本聊天机器人、Midjourney 和 DALL·E 等图像生成器、GitHub Copi-lot 等编码助手以及作曲和制作视频的系统。生成式人工智能模型具有不同的技术架构,并使用不同的算法对不同种类和来源的数据进行训练。有些需要数月时间和数百万美元的训练;其他的可以在一个周末完成。这些模型以非常不同的方式提供给用户。有些是通过付费在线服务提供的;其他系统则以开源模式分发,任何人都可以下载和修改它们。这些系统的行为不同,并引发不同的法律问题。因此,我们需要正确的框架——比“生成式人工智能”一词更深入——以便准确、清晰地推理所涉及的不同法律问题。第二个问题是版权法非常复杂,而生成式人工智能系统设法触及了它的许多角落。它们提出了作者身份、相似性、直接和间接责任、合理使用和许可等问题。这些问题不能孤立地分析,因为到处都有联系。生成式人工智能系统的输出是否合理使用可能取决于其训练数据集的组装方式。
主要关键词