同意在训练生成式 AI 中的作用

生成式人工智能以其创造模仿人类智能的内容的能力改变了我们的世界。想想这项技术可以随心所欲地毫不费力地制作文章、艺术或音乐;这真是太神奇了。但这里有一个转折点。使用这项技术总是合法的吗?有些人可能会说是的,而另一些人则提出了道德问题。数据 [...]

来源:Shaip 博客

生成式人工智能以其模仿人类智能创造内容的能力改变了我们的世界。想想这项技术可以随心所欲地毫不费力地创作文章、艺术或音乐;这真是太神奇了。

但这里有一个转折。使用这项技术是否总是合法的?有些人可能会说是的,而另一些人则提出了道德问题。

数据使用是这场辩论的核心。生成式人工智能需要大量数据,这些数据有助于模型学习和生成新内容。但这些数据从何而来?这就是为什么以合乎道德的方式获取这些数据至关重要。

生成式人工智能

因此,让我们仔细看看这场争议,并讨论人工智能模型如何利用法律在世界各地获取数据,即使我们听说——同意是关键。

绕过法律

技术进步很快,通常比法律更快。这种速度在人工智能合法性方面造成了灰色地带。深度学习模型,如 GPT-3 和 Stable Diffusion,需要大量数据。它们依赖于互联网数据,而互联网数据是巨大的。但有一个问题:大多数互联网内容来自人类。只有一小部分是开源的或受知识共享许可的。

知识共享许可

这引发了一个大问题。AI 模型使用的大多数互联网数据都没有创作者权限。这些创作者没有得到认可或报酬。这公平吗?

在美国,有《合理使用法》。它允许人们以新的方式使用受版权保护的作品,例如用于批评或模仿。AI 中的许多人都依赖这项法律,但他们将内容用作训练数据,而不是获得数据许可。但合理使用适用于 AI 训练数据吗?

合理使用法

让我们看看欧洲。欧盟有一项强有力的隐私法,称为《通用数据保护条例》(GDPR)。它是关于用户对数据使用的同意。公司不能随便获取数据,因为它们需要用户同意。那么,人工智能模型使用你的照片或艺术作品是否违反了这项法律?如果是,欧盟会怎么做?

这些问题悬而未决,它们将影响我们未来使用人工智能的方式。

接受还是放弃

海量数据训练的力量 Shaip