详细内容或原文请订阅后点击阅览
Perplexity AI 因涉嫌滥用网络抓取数据而卷入争议
Perplexity AI 因其数据收集实践而陷入了一场风暴的中心。Perplexity 本质上将搜索引擎与生成式 AI 融合在一起,返回与用户搜索查询相关的 AI 生成的内容。实现这一点的过程可能涉及从众多网站抓取内容,包括那些明确禁止它的网站。 6 月 11 日,福布斯报道称 Perplexity 从其网站上窃取了整篇文章,包括自定义插图,并在仅注明出处的情况下将其重新利用,这一丑闻由此爆发。不久之后,WIRED 进行了一项调查,发现了 Perplexity 从禁止自动抓取内容的网站上抓取内容的证据。这篇文章 Perplexity AI 卷入涉嫌滥用网络抓取的争议首先出现在 DailyAI 上。
来源:DailyAI | 探索人工智能的世界Perplexity AI 因其数据收集行为而陷入了一场风暴的中心。
Perplexity AI 因其数据收集行为而陷入了一场风暴的中心。Perplexity 本质上将搜索引擎与生成式 AI 融合在一起,返回与用户搜索查询相关的 AI 生成内容。
Perplexity 本质上将搜索引擎与生成式 AI 融合在一起,返回与用户搜索查询相关的 AI 生成内容。实现这一点的过程可能涉及从众多网站抓取内容,包括那些明确禁止它的网站。
实现这一点的过程可能涉及从众多网站抓取内容,包括那些明确禁止它的网站。6 月 11 日,福布斯报道称,Perplexity 从其网站上窃取了整篇文章,包括自定义插图,并在仅注明出处的情况下重新利用它,这一丑闻由此爆发。
丑闻于 6 月 11 日爆发,当时 《福布斯》报道 《福布斯》报道 Perplexity 从其网站上窃取了整篇文章,包括自定义插图,并在仅注明出处的情况下重新利用了它。不久之后,《连线》杂志进行了一项调查,发现了 Perplexity 从禁止自动数据收集的网站上抓取内容的证据。
不久之后,《连线》杂志 进行了一项调查 进行了一项调查 发现了 Perplexity 从禁止自动数据收集的网站上抓取内容的证据。网站可以通过名为“robots.txt”的文件要求网络爬虫不抓取其内容。
网站可以通过名为“robots.txt”的文件请求其内容不被网络爬虫抓取。此排除协议与网络爬虫和其他自动机器人进行通信。它是放置在网站服务器上的简单文本文件,用于指定不应访问或抓取网站的哪些页面或部分。
Jason Kint,首席执行官 Digital Content Next Digital Content Next