详细内容或原文请订阅后点击阅览
数据淘金热:人工智能巨头争夺信息访问权
人工智能自我学习——这能解决数据缺乏的问题吗?
来源:安全实验室新闻频道人工智能系统可能很快就会面临训练用文本数据的短缺。 2022 年 Epoch AI 报告预测,至少到 2026 年至 2030 年,公司将耗尽公开可用的数据。
报告Epoch AI 的预测表明,低质量语言数据将在 2030-2050 年耗尽,高质量语言数据将在 2026 年耗尽,视觉数据将在 2030-2060 年耗尽。此类数据对于训练机器学习模型至关重要,其稀缺性可能会减缓人工智能的进步。
高质量的数据在训练 GPT-3 等高级 AI 模型时发挥着关键作用,这些模型需要准确可靠的数据才能获得高性能。
语言和视觉数据耗尽图
语言和视觉数据耗尽图Epoch AI 将这种趋势比作耗尽资源的“淘金热”。在不久的将来,OpenAI 和谷歌等公司将争夺高质量数据,有时甚至为此付费。例如,公司正在与 Reddit 和新闻网站进行交易。
OpenAI 谷歌 Reddit随着时间的推移,新的博客、文章和社交媒体评论将不够,迫使公司转向用户的个人电子邮件或依赖聊天机器人本身生成的不太可靠的合成数据。如果数据耗尽,公司将无法有效扩展其模型,从而难以提高性能。
Epoch AI 在两年前首次做出预测,预测到 2026 年将出现数据短缺。从那时起,出现了新技术来更好地利用现有数据。然而,仍然存在局限性,研究人员现在预测公开数据将在未来 2 到 8 年内枯竭。
到 2026 年数据将耗尽
到 2026 年数据将耗尽 研究 合成数据,* Meta 公司及其产品被认为是极端分子,其活动在俄罗斯联邦被禁止。