这就是构建人工智能的数据来源

AI 的核心在于数据。我们需要大量的数据来训练算法,让算法能够完成我们想要做的事情,而输入到 AI 模型中的内容决定了最终的结果。但问题在于:AI 开发人员和研究人员对他们所使用的数据来源知之甚少。AI 的数据收集……

来源:MIT Technology Review _人工智能

他们的研究结果与《麻省理工学院技术评论》独家分享,显示出一个令人担忧的趋势:人工智能的数据实践有可能将权力压倒性地集中在少数几家占主导地位的科技公司手中。

与《麻省理工学院技术评论》独家分享 《麻省理工学院技术评论》

麻省理工学院研究员 Shayne Longpre 是该项目的一部分,他表示,在 2010 年代初期,数据集来自各种来源。

它不仅来自百科全书和网络,还来自议会记录、收益电话和天气预报等来源。 Longpre 说,当时,人工智能数据集是从不同来源专门策划和收集的,以适应各个任务。

然后,Transformer(语言模型的基础架构)于 2017 年被发明,人工智能领域开始看到模型和数据集越大,性能就越好。如今,大多数 AI 数据集都是通过不加区分地从互联网上抓取材料而构建的。自 2018 年以来,网络一直是音频、图像和视频等所有媒体中使用的数据集的主要来源,抓取的数据和更精心策划的数据集之间的差距已经出现并扩大。

“在基础模型开发中,对于功能而言,没有什么比数据和网络的规模和异构性更重要,”Longpre 说。对规模的需求也极大地促进了合成数据的使用。

过去几年还见证了多模态生成 AI 模型的兴起,这些模型可以生成视频和图像。与大型语言模型一样,它们需要尽可能多的数据,而最好的数据来源是 YouTube。

对于视频模型,正如您在这张图表中看到的,语音和图像数据集的 70% 以上的数据来自一个来源。

这对谷歌母公司 Alphabet(YouTube 所有者)来说可能是一大福音。文本分布在网络上,由许多不同的网站和平台控制,而视频数据则高度集中在一个平台上。