在过去的几年中,新的人工智能(AI)应用程序称为“生成AI”已变得有用和流行。这些AI模型因其从文本提示中获得文本,图像和视频的能力而闻名。生成模型是机器学习模型(特别是基于变压器的深神经网络),对数据进行了培训,以学习关键模式和关系,并生成具有相似特征的输出。常见应用程序涉及用户以自然语言输入提示以生成外数。其中包括来自大语言模型(LLM)的文本输出,包括Openai's Chatgpt,Anthropic的Claude,Google的Bard,Microsoft的Copilot和Meta的Llama,以及Open AI的Dall-E,稳定的稳定扩散和Midjourney的图像输出。这些新的生成AI应用程序提出了许多原始内容提供商的版权问题。具体来说,这些疑虑考虑了在培训数据中使用受复制保护内容的使用。一个关键问题是,在版权法中,是否使用这种拷贝性保护的材料在培训中使用公平使用规定,或者必须在版权所有者许可的许可下获得许可。AI提供者认为,这种许可将非常昂贵,尤其是考虑到可能涉及的交易成本。内容提供者认为,如果没有这样的保护,他们将因其内容创建而获得不足的回报。生成AI模型的另一个方面使这些版权问题复杂化。换句话说,示例与纯复制不同。在2023年的诉讼中,《纽约时报》指控Openai未经许可在培训其GPT LLMS的情况下使用其拷贝性保护的内容。它已要求法院采取措施,以防止培训其内容和/或法定损害损害的模型的可用性。《纽约时报》的证据表明,在某些提示的情况下,Chatgpt和Bingchat(许可Openai的GPT)都可以从《纽约时报》中逐字复制文章。图像生成模型中类似的提示可以产生伦敦拥有的字符和数字资产的相似性(Marcus and Southen,2024)。Openai回应说,他们没有故意在时间上训练自己的模型,而是这些例子是“反流”的证据。 1这种情况,由于某些文本在公共站点上可用,因此大型AI模型可以从统计上复制该文本(T'Anzer等,2021)。2,如果可以使用AI模型重现原始内容,则此“泄漏”可能会对
主要关键词