Big Tech表示,不可能基于道德采购的数据创建AI。这些研究人员证明他们是错误的

志留式假设询问今天真正古老的过去文明的迹象今天甚至可以识别。

来源:ZME科学
图像信用:Alina Grubnyak。

ai,目前正在遍及世界的技术依赖于从开放网络中收获的庞大数据集。这包括受版权保护的书籍,文章,论坛帖子,社交媒体内容,甚至是私人沟通 - 所有这些都没有得到创造者的明确许可。科技行业的主要参与者(OpenAI,Anthropic等)明确地认为您无法真正以不同的方式构建AI。在英国议会的证词中,Openai说:

“由于今天的版权几乎涵盖了几乎每种人类表达方式,包括博客文章,照片,论坛帖子,软件代码的废料和政府文件 - 如果不使用受版权保护的材料,就不可能训练当今领先的AI模型。”

lo and Beold,科学家创造了不可能的东西:公共领域的集合和公开许可的文本,足以训练大型语言模型。

好吧,你会看那个

在2024年末,一组研究人员悄悄地组装了大型技术认为不存在的东西。从本质上讲,这是平凡的东西 - 矛盾的是,革命性:数据集。该数据集完全是由以道德来源的材料建造的 - 其版权已过期的书籍,所共享的教育资源,开源代码代码以及公共域政府文件的成绩单。

简单地说,没有刮擦社交媒体,没有新闻网站偷窃,没有合法的灰色区域。结果是普通堆V0.1 - 公共领域的8正确收集和公开许可的文本。

该普通堆包括30个经过审查的材料,包括政府记录,科学文章,开放教育书籍,stackexchange以及具有创意共享许可证的YouTube视频。所有人都经过了仔细检查,以确保其法律清晰度。

它不能跟上Chatgpt,但表明可以完成

每年700亿

公司可以做得更好

自由访问