AI热点 1天前 174 阅读 0 评论

Cloudflare 称 Perplexity 绕过限制,抓取明令禁止 AI 抓取的网站

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

感谢IT之家网友 Coje_He 的线索投递!

IT之家 8 月 5 日消息,当地时间周一,Cloudflare 发布了一份报告,指控 AI 初创公司 Perplexity 在网站已明确标注禁止 AI 抓取的情况下仍进行抓取,并通过改变身份标识规避拦截规则。

报告显示,Perplexity 忽略网站 robots.txt 文件(用于告知搜索引擎和 AI 公司哪些页面可供索引)及针对其已知爬虫的拦截规则,调整 UA  和 ASN 信息,通过更换身份和网络地址等手段绕过屏蔽并抓取大量内容。

Cloudflare 称,他们通过“机器学习与网络信号相结合”的方式,识别出了 Perplexity 爬虫的特征,其行为涉及“数万个域名,每天数百万次请求”。

针对指控,Perplexity 发言人 Jesse Dwyer 表示:Cloudflare 的博文是“销售噱头”,并表示文中截图“显示没有内容被访问”。在后续邮件中,Dwyer 进一步否认,称 Cloudflare 提到的机器人“甚至不是我们的”。

Cloudflare 表示,其调查源于客户投诉 —— 部分客户已在 robots 文件中添加规则并专门拦截 Perplexity 的已知爬虫,但仍遭其抓取。Cloudflare 测试后确认属实。

作为回应,Cloudflare 已将 Perplexity 的爬虫移出认证名单(用于标识合法爬虫),并添加新的技术拦截其行为。

IT之家注意到,这并非 Perplexity 首次面临此类指控。去年《Wired》等媒体也曾指控 Perplexity 抄袭其内容;首席执行官 Aravind Srinivas 在 Disrupt 2024 大会上面对媒体问询却不敢回答。

参考资料:

  • 《Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!