AI 爬虫大战威胁着让网络对所有人更加封闭 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AI 爬虫大战威胁着让网络对所有人更加封闭

2025年2月11日 15:06 33 Comments

我们经常认为互联网是理所当然的。它是我们指尖上的海量信息——而且它就是有效。但这个系统依赖于成群的“爬虫”——在网络上漫游的机器人，每天访问数百万个网站，并报告它们所看到的内容。这就是 Google 如何为其搜索引擎提供支持、亚马逊如何设定有竞争力的价格，以及……

来源:MIT Technology Review _人工智能

这些措施仍然提供即时保护。毕竟，无论法院如何裁定版权和合理使用，人工智能公司都不能使用他们无法获得的东西。但其结果是，大型网络出版商、论坛和网站往往会对所有爬虫——甚至那些不构成威胁的爬虫——设置吊桥。即使他们与想要保留这些数据独占权的人工智能公司签订了利润丰厚的协议，情况也是如此。最终，网络被细分为更少的爬虫受到欢迎的领域。

所有利润丰厚的交易

我们将如何失去

随着这场猫捉老鼠游戏的加速，大玩家往往比小玩家坚持得更久。大型网站和出版商将在法庭上捍卫他们的内容或谈判合同。大型科技公司可以负担得起授权大型数据集或创建强大的爬虫来规避限制。但是，视觉艺术家、YouTube 教育者或博主等小型创作者可能觉得他们只有两个选择：将内容隐藏在登录和付费墙后面，或者完全离线。对于真正的用户来说，这使得他们更难访问新闻文章、查看他们最喜欢的创作者的内容，以及在不登录、订阅要求和验证码的情况下浏览网页。

也许更令人担忧的是与人工智能公司签订的大型独家合同正在细分网络。每笔交易都会增加网站保持独家地位的动机，并阻止任何其他人访问数据——无论是否是竞争对手。这可能会导致权力进一步集中在更少的人工智能开发者和数据发布者手中。未来只有大公司才能授权或抓取关键的网络数据，这将抑制竞争，无法为真正的用户或许多版权持有者提供服务。

Shayne Longpre 是麻省理工学院的博士生，他的研究重点是人工智能与政策的交集。他领导数据来源计划。

数据来源倡议

玩家出版商数据集人工智能不能使用真正的数据来源网络版权授权内容持有者数据独家创作者公司可能大型大型网络网站爬虫

AI 爬虫大战威胁着让网络对所有人更加封闭

我们将如何失去

其他外部链接

Tags

XiaoMi-AI