数据战争 2024:AI 培训的道德和实践斗争

如果您要求 Gen AI 模型像披头士乐队那样为歌曲写歌词,并且它做得非常出色,那是有原因的。或者,如果你要求一个模型以你最喜欢的作者的风格写散文,并且它精确地复制了这种风格,那么这是有原因的 […]

来源:Shaip 博客

如果您要求 Gen AI 模型为披头士乐队的歌曲写歌词,并且它表现得非常出色,那么这样做是有原因的。或者,如果您要求模型以您最喜欢的作家的风格写散文,并且它精确地复制了这种风格,那么这样做也是有原因的。

即使很简单,您身处另一个国家,当您想要翻译在超市货架上发现的有趣零食的名称时,您的智能手机也会检测标签并无缝翻译文本。

AI 是所有这些可能性的支点,这主要是因为 AI 模型已经接受了大量此类数据的训练——在我们的例子中,数百首披头士乐队的歌曲以及您最喜欢的作家的书籍。

随着生成式 AI 的兴起,每个人都是音乐家、作家、艺术家或所有这些。根据用户提示,Gen AI 模型可以在几秒钟内生成定制的艺术作品。他们可以创作梵高风格的艺术作品,甚至让阿尔帕西诺在不在场的情况下宣读服务条款。

梵高风格

除了魅力之外,这里重要的方面是道德。 将这些创意作品用于训练正在逐渐取代艺术家的人工智能模型是否公平? 是否获得了此类知识产权所有者的同意? 他们是否得到了公平的补偿?

欢迎来到 2024 年:数据战争之年

在过去的几年里,数据进一步成为吸引公司关注以训练其 Gen AI 模型的磁石。 就像婴儿一样,人工智能模型是幼稚的。 他们必须被教导然后训练。 这就是为什么公司需要数十亿甚至数百万的数据来人工训练模型以模仿人类的原因。

例如,GPT-3 是在数十亿(数百个)token(大致翻译为单词)上进行训练的。然而,消息人士透露,数万亿个这样的代币被用于训练最新的模型。

需要如此庞大的训练数据集,大型科技公司该何去何从?

训练数据严重短缺

争夺人工智能训练数据的竞赛

Shaip