详细内容或原文请订阅后点击阅览
困惑AI忽略网站上无爬行的规则,无论如何它们
困惑忽略机器人.txt文件,这些文件说它们不想被爬行。
来源:Malwarebytes Labs 博客想象一下,为walking狗的人们提出一个无侵犯的迹象,然后发现一个人打扮成小腿的大丹犬,然后将其行走在您的地面上。
根据CloudFlare的说法,通过逃避网站的No-Crawl指令,这是AI答案引擎的困惑。
Cloudflare在这种情况下,无trespass的符号将是一个robots.txt文件 - 一个放置在网站上的小文本文件,该文件告诉搜索引擎和其他自动化工具(通常称为“ bot”或“ crawlers”),网站的哪些页面或部分则允许它们允许访问哪些部分以及他们不应访问的部分。
CloudFlare在客户抱怨说困惑访问其内容后开始进行调查,尽管他们不允许在robots.txt文件中进行困惑爬行活动。他们还创建了Web应用程序防火墙(WAF)规则,以专门阻止Pllexity声明的爬行者:PerplexityBot和Perplexity-user。
因此,CloudFlare设置了一些测试域,并查询了它们的困惑,以查看它是否会返回该信息应该无法访问的信息。研究人员发现的是令人惊讶的,因为看起来困惑使用了一个非常有意的系统来绕过无拼写指令。
研究人员发现使用用户代理使用旨在在MacOS上模仿Google Chrome(看起来像常规用户)时使用的用户代理,当他们声明的爬行者被阻塞时。用户代理字符串显示您正在访问有关浏览器和操作系统的一些基本信息,因此该网站可以为该设置提供优化的体验。该用户代理字符串伪装的困惑射击器在Perplexity的官方IP范围之外使用定期更改IP地址,从而使其能够成功访问该内容不应该的内容。
用户代理为什么忽略robots.txt是错误的?
困惑的正式反应困惑原因:
恶意软件个人数据删除剂