详细内容或原文请订阅后点击阅览
AI 网络数据基础设施层的出现
人工智能正在蓬勃发展。每天都会出现新的用例。为了充分利用该技术的潜力,企业需要大规模数据。但在许多情况下,相关信息是被屏蔽或非结构化的,这限制了人工智能模型的使用。要理解这一挑战,请考虑网络本身的基础。网络不是被设计的……
来源:MIT Technology Review _人工智能人工智能的下一个前沿可能依赖于新的网络数据基础设施层,该基础设施层可以使模型能够发现和映射这个不断扩展的数字领域。该层必须能够导航数亿个现有 Web 域和每周创建的数十亿个新 URL,提供实时信息并克服技术障碍。
“数据表明,还有更多的数据,”网络数据收集平台 Bright Data 的首席执行官 Or Lenchner 说道。 “想想宇宙:它就在那里,但你不知道你不知道什么。”
允许访问新鲜、相关且值得信赖的数据
虽然早期的人工智能突破是由扩展训练数据和模型大小推动的,但组织现在遇到了一个根本瓶颈:他们需要跟上网络数据的动态、非结构化和不断发展的性质,以便以当前和可验证的信息为基础输出。人工智能性能越来越不仅取决于模型架构,还取决于系统的计算、网络、检索和数据工程能力,即系统快速可靠地检索新鲜、相关且值得信赖的数据的能力。
传统模型训练依赖于在特定时间点收集的信息快照。在此类静态数据上训练人工智能已经不够了。为了跟踪竞争对手定价、消费者情绪和市场趋势等波动,公司需要不断提供新信息,实时提取数据以及相关背景。因此,他们的基础设施必须能够处理数百万个跨网站的同时交互,这些网站因地理位置、语言、格式和访问规则而异。
“如果它无法检索实时信息,那么它就缺乏上下文,”Lenchner 说。 “在商业环境中,这已经不再可接受。陈旧的答案会导致错误的决策并使消费者失望。”
