Big Tech表示，不可能基于道德采购的数据创建AI。这些研究人员证明他们是错误的 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Big Tech表示，不可能基于道德采购的数据创建AI。这些研究人员证明他们是错误的

2025年6月12日 17:17 33 Comments

志留式假设询问今天真正古老的过去文明的迹象今天甚至可以识别。

来源:ZME科学

图像信用：Alina Grubnyak。

ai，目前正在遍及世界的技术依赖于从开放网络中收获的庞大数据集。这包括受版权保护的书籍，文章，论坛帖子，社交媒体内容，甚至是私人沟通 - 所有这些都没有得到创造者的明确许可。科技行业的主要参与者（OpenAI，Anthropic等）明确地认为您无法真正以不同的方式构建AI。在英国议会的证词中，Openai说：

“由于今天的版权几乎涵盖了几乎每种人类表达方式，包括博客文章，照片，论坛帖子，软件代码的废料和政府文件 - 如果不使用受版权保护的材料，就不可能训练当今领先的AI模型。”

lo and Beold，科学家创造了不可能的东西：公共领域的集合和公开许可的文本，足以训练大型语言模型。

好吧，你会看那个

在2024年末，一组研究人员悄悄地组装了大型技术认为不存在的东西。从本质上讲，这是平凡的东西 - 矛盾的是，革命性：数据集。该数据集完全是由以道德来源的材料建造的 - 其版权已过期的书籍，所共享的教育资源，开源代码代码以及公共域政府文件的成绩单。

简单地说，没有刮擦社交媒体，没有新闻网站偷窃，没有合法的灰色区域。结果是普通堆V0.1 - 公共领域的8正确收集和公开许可的文本。

该普通堆包括30个经过审查的材料，包括政府记录，科学文章，开放教育书籍，stackexchange以及具有创意共享许可证的YouTube视频。所有人都经过了仔细检查，以确保其法律清晰度。

它不能跟上Chatgpt，但表明可以完成

每年700亿

公司可以做得更好

自由访问

世界的过期的合法的包括文章不同的材料文本清晰度社交许可的创造者领先的仔细检查版权保护科学家公共可能的不存在数据集东西许可证开放帖子代码的书籍如果不技术参与者研究人员源代码政府 AI 版权没有审查的保护的