详细内容或原文请订阅后点击阅览
为什么人工智能要在自己的垃圾上进行训练(以及如何修复它)
深网数据是我们无法触及的黄金,然而,为什么人工智能要在自己的垃圾上进行训练(以及如何修复它)一文首先出现在《走向数据科学》上。
来源:走向数据科学在人工智能领域工作了一段时间,你可能是一名 LLM/Agent/Chat 用户,但你是否曾问过自己,在不久的将来这些工具将如何训练,如果我们已经用完了训练模型所需的数据怎么办?许多理论认为,我们正在耗尽人类生成的高质量数据来训练我们的模型。
新内容每天都会增加,这是现实,但每天添加的内容中越来越多的部分本身就是人工智能生成的。因此,如果你继续使用公共网络数据进行训练,那么你最终会使用你前辈的输出进行训练。蛇正在吃它的尾巴。研究人员将这种现象称为“模型崩溃”,即人工智能模型开始从其前辈的错误中学习,直到整个系统退化为毫无意义。
但如果我告诉你我们实际上并没有耗尽数据呢?我们只是找错了地方。
在本文中,我将详细分析这篇精彩论文的主要见解。
我们已经使用的网络和重要的网络
我们大多数人都认为网络是一种独特的信息来源。事实上,至少有两个。
有表面网络:索引的公共世界,就像我们在 Reddit、维基百科和新闻网站上找到的那样。这是我们多年来为了训练当今主流人工智能模型而已经废弃和过度使用的东西。然后,就是我们所说的“深网”,这里我不是在谈论“暗网”或任何非法的东西。
深网就是登录或防火墙后面的一切。它指的是任何未公开索引的在线内容。它可以是医院的患者门户、银行的内部仪表板、企业文档档案、私人数据库以及登录屏幕后面多年的电子邮件。普通、无聊,但却非常有价值的数据。
问题是什么?我想你能猜到,它是私有的。你不可能只提取一百万份医疗记录而不考虑你将造成的所有法律和道德灾难。
