Perplexity AI 因涉嫌滥用网络抓取数据而卷入争议

Perplexity AI 因其数据收集实践而陷入了一场风暴的中心。Perplexity 本质上将搜索引擎与生成式 AI 融合在一起,返回与用户搜索查询相关的 AI 生成的内容。实现这一点的过程可能涉及从众多网站抓取内容,包括那些明确禁止它的网站。 6 月 11 日,福布斯报道称 Perplexity 从其网站上窃取了整篇文章,包括自定义插图,并在仅注明出处的情况下将其重新利用,这一丑闻由此爆发。不久之后,WIRED 进行了一项调查,发现了 Perplexity 从禁止自动抓取内容的网站上抓取内容的证据。这篇文章 Perplexity AI 卷入涉嫌滥用网络抓取的争议首先出现在 DailyAI 上。

来源:DailyAI | 探索人工智能的世界

Perplexity AI 因其数据收集行为而陷入了一场风暴的中心。

Perplexity AI 因其数据收集行为而陷入了一场风暴的中心。

Perplexity 本质上将搜索引擎与生成式 AI 融合在一起,返回与用户搜索查询相关的 AI 生成内容。

Perplexity 本质上将搜索引擎与生成式 AI 融合在一起,返回与用户搜索查询相关的 AI 生成内容。

实现这一点的过程可能涉及从众多网站抓取内容,包括那些明确禁止它的网站。

实现这一点的过程可能涉及从众多网站抓取内容,包括那些明确禁止它的网站。

6 月 11 日,福布斯报道称,Perplexity 从其网站上窃取了整篇文章,包括自定义插图,并在仅注明出处的情况下重新利用它,这一丑闻由此爆发。

丑闻于 6 月 11 日爆发,当时 《福布斯》报道 《福布斯》报道 Perplexity 从其网站上窃取了整篇文章,包括自定义插图,并在仅注明出处的情况下重新利用了它。

不久之后,《连线》杂志进行了一项调查,发现了 Perplexity 从禁止自动数据收集的网站上抓取内容的证据。

不久之后,《连线》杂志 进行了一项调查 进行了一项调查 发现了 Perplexity 从禁止自动数据收集的网站上抓取内容的证据。

网站可以通过名为“robots.txt”的文件要求网络爬虫不抓取其内容。

网站可以通过名为“robots.txt”的文件请求其内容不被网络爬虫抓取。

此排除协议与网络爬虫和其他自动机器人进行通信。它是放置在网站服务器上的简单文本文件,用于指定不应访问或抓取网站的哪些页面或部分。

Jason Kint,首席执行官 Digital Content Next Digital Content Next

亚马逊调查

然而,在随后的