详细内容或原文请订阅后点击阅览
数字盗版:人工智能巨头如何抢劫互联网
忽视人工智能公司普遍接受的协议可能会导致互联网混乱。
来源:安全实验室新闻频道忽视人工智能公司普遍接受的协议可能会导致互联网混乱。
Perplexity 将其产品宣传为“由人工智能驱动的免费搜索引擎”,目前正处于丑闻的中心。在指责《福布斯》窃取材料并在各种平台上重新发布后,《连线》杂志报道称,Perplexity 无视机器人排除协议 (robots.txt),未经授权从《连线》网站和康泰纳仕控股媒体的其他出版物上收集数据。科技网站 The Shortcut 也提出了类似的指控。
福布斯 有线 推现在,据路透社报道,Perplexity 并不是唯一一家忽略 robots.txt 并抓取网站内容,然后用于训练其技术的公司。该机构引用了 TollBit 的一封信,TollBit 是一家帮助出版商与人工智能公司谈判许可协议的初创公司。信中指出,“来自多个来源(不仅仅是一家公司)的人工智能代理选择绕过 robots.txt 协议从网站提取内容。”
据路透社Robots.txt 是一个简单但有效的工具,网站所有者可以用它来管理搜索机器人的索引。尽管它的使用是建议性的,但自 1994 年以来一直在使用。
TollBit 没有透露具体公司名称,但 Business Insider 报道称,OpenAI 和 Anthropic(分别是聊天机器人 ChatGPT 和 Claude 的制造商)也忽略了 robots.txt 信号。这两位开发人员此前均表示,他们遵守 robots.txt 文件中的“请勿抓取”说明。
商业内幕 OpenAI 人择