你的内容，你的规则：Cloudflare 加入对抗 AI 机器人的战斗 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

你的内容，你的规则：Cloudflare 加入对抗 AI 机器人的战斗

2024年7月4日 12:10 33 Comments

一种新的安全系统将网络爬虫置于数字束缚之下。

来源:安全实验室新闻频道

一种新的安全系统将网络爬虫置于数字束缚之下。

7 月 3 日，Cloudflare 宣布推出一款新工具，允许网络托管客户完全阻止未经许可从其网站收集内容以训练机器学习模型的机器人。

Cloudflare 声明

该决定是基于客户对机器人的不满以及“确保内容创作者的互联网安全”而做出的。 “我们清楚地听到，我们的客户不希望人工智能机器人访问他们的网站，尤其是那些不诚实的机器人。这就是为什么我们添加了一项新功能，可以一键阻止所有 AI 机器人。”Cloudflare 说道。

阻止机器人的现有方法——“robots.txt”文件——被网站所有者广泛使用。该文件放置在网站的根目录中，告诉自动网络爬虫（搜索机器人）应该避开网站的哪些部分。

然而，问题是“robots.txt”可以被忽略而不会产生太大的后果。亚马逊最近的一份报告发现，人工智能机器人常常无法遵循这些指令。因此，之前曾出现过代表 Perplexity 公司工作的机器人在未经许可的情况下扫描网站并在与用户的对话中复制该内容，但没有表明信息来源的情况。

亚马逊未经许可抓取网站并在与用户对话中转载此内容，

现在，Cloudflare 为机器人提供了更可靠的屏障。公司代表指出，一些机器人试图使用虚假用户代理将自己伪装成普通浏览器。然而，即使用户代理是故意欺骗的，Cloudflare 的全局机器学习模型也能快速检测到此类活动。

现在，为了充分保护其网站免受此类为 AI 模型收集数据的机器人的侵害，Cloudflare 用户只需单击所需站点的“安全 - 机器人”菜单中的“阻止 AI 抓取器和爬虫”按钮即可。

产生网站 robots txt 内容阻止 Cloudflare 人工智能未经许可爬虫机器学习 AI 客户机器人网络情况