一分钟3.9万次请求，网站被AI爬虫“碾压”，Meta和OpenAI遭点名，开发者接连祭出神级反爬“武器”

“我的网站被爬崩了，自己要付流量费，人家却用我的内容训练出 AI 模型，还赚足了眼球。”

自从 AI 机器人开始流行，很多网站开发者叫苦不堪。而近日，云服务巨头 Fastly 发布的一份报告让人看完直呼“现实往往我们仅听到的部分更为残酷。”

报告显示，现在 AI 爬虫正疯狂冲击互联网，它们抓取网站的速度极快，占了 AI 机器人流量的 80%，剩下的 20% 是按需抓取。

这些 AI 机器人对没有设立防护的网站而言，可不是闹着玩的——其峰值流量甚至能达到每分钟 39,000 个请求！换句话说，一个普通网站可能在一分钟之内被 AI 爬虫和抓取程序“轰炸”上千次，每秒都在承受超负荷压力。

而报告还揭露了罪魁祸首们还是如今众人所知的 Meta、OpenAI 等主流 AI 大厂，为此，开发者也正在蓄力开启「反击之战」。

AI 爬虫正在摧毁网站，Meta、Google、OpenAI 是“主谋”？

在这份报告里，Fastly 把 AI 机器人分成两类，按它们的行为和用途来区分：爬虫（Crawlers）和抓取（Fetchers）。

所谓爬虫机器人，它的工作方式像搜索引擎，它们会系统地扫描网站，把内容收集起来，用于建立可搜索的索引或者用来训练语言模型。这一步是 AI 模型“训练阶段”的前提。

数据上看，爬虫机器人占了 AI 机器人请求量的近 80%，抓取机器人占剩下的 20%。

爬虫机器人通常会去抓取公开可访问、有权威的网站内容，比如新闻网站、教育资源、政府页面、技术文档或者公开数据集。

报告显示，AI 爬虫流量几乎全部被几家公司瓜分：Meta、Google 和 OpenAI 三家加起来就已经占了 95%，其中 Meta 占 52%，Google 23%，OpenAI 20%。

抓取机器人就像模型的“小助理”，当 AI 回答问题时，它们会马上去找相关的网页或资料，让模型能引用权威、最新的信息来支撑答案。也就是说，模型在生成回答的时候，不只是凭自己记忆里的内容，还能实时参考外部数据，这个过程就叫做“推理阶段”。

数据显示，几乎所有抓取请求里，ChatGPT-User 和 OpenAI SearchBot 共计占 98%，也就是说 OpenAI 主要靠 ChatGPT，对网站带来的抓取流量影响最大。其次，Perplexity 的抓取请求量只有 1.53%，不过它的影响力在慢慢上升。

报告进一步指出，排名前四的爬虫公司——Meta、Google、OpenAI 和 Claude——似乎对商业网站特别感兴趣，总爱“盯着”这类内容。

再来看一看 AI 爬虫的流量趋势。数据显示，近几个月以来，Meta 的爬虫明显在慢慢“加速”。

同时，大多数爬虫的频次都挺随性的，有时候会悄悄爬，流量平平，这也导致很多网站可能都没有意识到自己的网站被爬取了。

不过，有时候这些 AI 机器人流量也会爬得过分，连续几天甚至几周，流量可能直接飙到平常的 2–3 倍。

宏观数据背后，其实有不少真实的案例。比如我们此前报道过的乌克兰一家专注于人体 3D 模型的网站 Trilegangers。

作为一家销售 3D 扫描数据的网站，Trilegangers 的七名员工花了十多年时间，建立了网络上最大的“人体数字替身”数据库。殊不知，今年年初，这个一直运行良好的网站突然崩了。CEO Oleksandr Tomchuk 赶紧召集工程师排查，结果发现——在网站已经更新了 robots.txt 的情况下，OpenAI 使用 600 个 IP 来抓取数据，直接把网站爬崩了。

Tomchuk 自述，如果爬虫抓得再温和一些，他可能永远都不会注意到这个问题。为此，Tomchuk 公开怒斥道：“他们的爬虫程序正在摧毁我们的网站！这基本上是一次 DDoS 攻击。”

看不见的成本只能由网站管理员及公司自行承担

确实，AI 机器人如果设计得不合理，会无意中给很多网站服务器带来巨大压力，导致网站慢、服务中断，甚至增加运营成本。尤其是大规模 AI 机器人流量飙升的时候，更让人头疼。

Fastly 也在报告中分享了他们的一些真实案例：

有个爬虫峰值能达到每分钟 1,000 次请求，虽然听起来不算“过”，但对依赖数据库查询或者像 Gitea 这种提供 Git 仓库浏览的系统来说，短时间的高峰就可能让网站卡顿、超时或者出问题。

按需抓取的情况就更夸张了：有一次，一个抓取器峰值竟然达到每分钟 39,000 次请求！这样的流量就算没有恶意，也能把服务器压得喘不过气来，消耗带宽，甚至产生类似 DDoS 攻击的效果。

过量的机器人流量不仅影响用户体验，还会推高基础设施成本，让网站数据分析失真。

遗憾的是，Fastly 的高级安全研究员 Arun Kumar 在报告里说，AI 机器人正在改变人们访问和体验互联网的方式，同时给数字平台带来了新的复杂问题。不管是为了训练 AI 收集数据，还是为了实时提供答案，这些机器人都会带来可见性、控制和成本上的新挑战。“看不到的东西就没法保护，没有明确的验证标准，AI 自动化的风险就会成为数字团队的盲点。”

开发者反击，自制陷阱：工作量证明、zip 炸弹、迷宫

随着 AI 的使用越来越广泛，以及相关工具的发展加速，AI 爬虫事件似乎只会越来越多，而不是减少。面对这些“无视规则”的爬虫，开发者们开始主动反击，用各种奇招保护自己的网站。

用“工作量证明”工具 Anubis

一位名为 Xe Iaso 的 FOSS 开发者曾于今年一月公开怒斥亚马逊的 AI 爬虫工具，称其疯狂抓取自己的 Git 代码托管服务，导致网站频繁崩溃，几乎无法正常运行。

然而，公开喊话并没有起到任何震慑作用，反而有时爬虫行为愈演愈烈。

忍无可忍的 Xe Iaso 自己开发了一套叫“Anubis” 的系统（ https://git.xeserv.us/ ）。

这是一个基于工作量证明（Proof-of-Work）的反爬虫机制。当用户访问启用了 Anubis 的网站时，Anubis 会要求浏览器完成一个基于 SHA-256 的 PoW 挑战。

这一挑战需要消耗一定的计算资源，普通用户几乎察觉不到延迟，但对于大规模爬虫而言，这种额外的计算开销会显著增加抓取成本，从而起到抑制作用。

程序员自制“ZIP 炸弹”反击内容窃取

还有一些开发者则采取了更“激烈”的手段。有一天， Ibrahim Diallo 偶然发现，有个网站在实时偷他的博客内容：每当有人访问他们的页面，他们就立刻爬取他最新的文章，把名字和品牌标识删掉，然后假装是自己写的。

一开始，Ibrahim 尝试“手动反击”，故意喂爬虫一些假数据，让对方搬错内容。但没过多久，他觉得这种方式太麻烦，于是决定使用自己的秘密武器——“ZIP 炸弹”。

这个“炸弹”的工作原理是：当爬虫访问他的网站时，他返回一个看起来没问题的小压缩文件。爬虫的服务器会自动下载并尝试解压，结果几 GB 的“垃圾”文件瞬间释放，直接让系统崩溃。

网站访问的验证码变成“DOOM 挑战”，三杀通关才算人类

验证码也被赋予了游戏化的新玩法。云服务平台 Vercel 的 CEO Guillermo Rauch 不久前结合 AI 推出了一种《毁灭战士》（DOOM）式验证码。用户要证明自己是人类，必须在“噩梦模式”下击败三个敌人才能进入网站。

不过，这种方法虽然有效挡住了爬虫，但也让普通用户体验变得耗时繁琐。

基础设施公司也在出招

大型网络基础设施公司也在行动。之前 Cloudflare 发布了 AI迷宫（AI Labyrinth），专门对付未经允许的爬虫。系统检测到异常行为时，会把爬虫引入一个充满虚假页面的迷宫，让爬虫消耗资源、迷失方向。Cloudflare 透露，每天 AI 爬虫在其网络上发起的请求超过 500 亿次，占总流量近 1%。