在最近在德国的一个案件[1]中,被告,非营利组织Laion创建了一个近60亿个图像文本对的数据集。laion旨在用于培训生成AI的数据集。它是通过在Internet上进行公开可用的图像并将这些图像与图像的文本说明相结合而创建的。这些图像之一属于原告,罗伯特·尼斯克(Robert Kneschke)先生。Kneschke是一位摄影师,将图像上传到股票照相馆的网站。该网站包括对使用声明的限制,专门说明“自动程序”的使用受到限制。Kneschke声称Laion在数据集中使用图像和繁殖侵犯了他根据《德国版权法》第16条侵犯了他的版权。kneschke同样否认,在《德国版权法》的某些部分及其在数字单一市场指令下,Laion可以利用临时副本或临时副本或文本和数据挖掘(TDM)的例外[2]。
Law360(2024 年 1 月 18 日,美国东部时间晚上 10:29)——为了开发 ChatGPT 和文本转艺术程序 Stable Diffusion,人工智能公司无需费力寻找帮助他们的程序惊艳世界的素材。OpenAI 和总部位于伦敦的 Stability AI 所要做的就是获取内容来训练他们的程序,就像我们其他人想学习某些东西时所做的一样——上网。这些公司不必为用于人工智能训练的大量数据集付费,甚至不必请求,因为在许多情况下,这些数据集已经存在——由非营利组织收集,这些非营利组织的既定目的是存档互联网的部分内容并免费提供材料。除了成本和便利性之外,非营利组织还有另一个优势,使使用他们的材料更具吸引力:由于他们收集的内容用于学术研究并且是免费提供的,因此这是合理使用,人工智能公司在诉讼和对美国版权局的评论中辩称。但现在,人工智能公司使用的 Common Crawl 和大规模人工智能开放网络 (LAION) 等非营利组织的数据集正受到作家、艺术家、艺人和其他内容创作者的诉讼,他们指控生成式人工智能模型侵犯了版权。Common Crawl、LAION 和其他公司在许多针对人工智能公司的未决诉讼中被提及,尽管它们不是被告。然而,根据对知识产权律师、法学教授和人工智能研究人员的采访,这并不意味着非营利组织最终可以逃脱责任。Saul Ewing LLP 体育和娱乐业务合伙人兼主席 Darius Gambino 表示:“处理这些案件的动态很有趣,因为被指控侵犯版权的公司不一定是创建人工智能使用的数据集的公司。”在 LAION 的案件中,已提起集体诉讼的艺术家指控该非营利组织拥有来自 Stability AI 和谷歌的工程师,同时还获得了 Stability AI 首席执行官 Emad Mostaque 的资助,后者自称是 2022 年“LAION 的最大支持者”。艺术家们还声称 Mostaque 资助了该非营利组织用于 Stable Diffusion 的数据集。起诉书称,在艺术家们提起诉讼后,Mostaque 撤回了他的言论。LAION、Stability AI 和谷歌没有回应对此事发表评论的请求。
基线。我们主要与 CLIP(Radford 等人,2021 年)进行比较,后者在欧几里得空间中的单位超球面上嵌入图像和文本。CLIP 使用 4 亿个图像-文本对的私有数据集进行训练。一些后续工作重新实现了 CLIP 并使用可公开访问的数据集,如 YFCC(Thomee 等人,2016 年)、概念标题(Changpinyo 等人,2021 年;Sharma 等人,2018 年)和 LAION(Schuhmann 等人,2021 年;2022 年);值得注意的例子是 OpenCLIP(Ilharco 等人,2021 年)、SLIP(Mu 等人,2022 年)、DeCLIP(Li 等人,2022 年)和 FILIP(Yao 等人,2022 年)。我们开发了 CLIP 基线并使用单个公共数据集 RedCaps(Desai 等人,2021 年)对其进行训练,以便于重现。我们最小的模型使用 8 × V100 GPU 在不到一天的时间内进行训练,并且明显优于最近使用 YFCC(Mu 等人,2022 年)的 CLIP 重新实现。
摘要。扩散模型已在图像,音频和视频生成任务中显着提高了最新技术的状态。但是,它们在实际情况下的应用是由于推理速度缓慢而阻碍。从一致性模型中汲取灵感,我们提出了pproximation m odel(Splam)的s ub-p ath linear,它可以加速扩散模型,同时保持高质量的图像产生。SPLAM将PF-ode轨迹视为一系列的PF-ode子路径除以采样点,并利用子路线线性(SL)ODES沿每个单独的PF-ode子path形成一个预处理且连续的误差估计。此类SL-dodes上的优化允许Splam与累积近似误差较小的构图构图。还开发了一种有效的蒸馏方法,以促进预训练的扩散模型(例如潜在扩散模型)的局限。广泛的实验结果表明,SPLAM达到了显着的训练效率,只需要6个A100 GPU天才能制造出2到4步生成的高质量生成模型。对Laion,MS Coco 2014和MS Coco 2017数据集进行了全面评估,还表明,Splam超过了几步生成任务中现有的加速方法,在FID和生成图像的质量上都实现了最先进的性能。