“我的网站被爬崩了,自己要付流量费,人家却用我的内容训练出 AI 模型,还赚足了眼球。”
自从 AI 机器人开始流行,很多网站开发者叫苦不堪。而近日,云服务巨头 Fastly 发布的一份报告让人看完直呼“现实往往我们仅听到的部分更为残酷。”
报告显示,现在 AI 爬虫正疯狂冲击互联网,它们抓取网站的速度极快,占了 AI 机器人流量的 80%,剩下的 20% 是按需抓取。
这些 AI 机器人对没有设立防护的网站而言,可不是闹着玩的——其峰值流量甚至能达到每分钟 39,000 个请求!换句话说,一个普通网站可能在一分钟之内被 AI 爬虫和抓取程序“轰炸”上千次,每秒都在承受超负荷压力。
而报告还揭露了罪魁祸首们还是如今众人所知的 Meta、OpenAI 等主流 AI 大厂,为此,开发者也正在蓄力开启「反击之战」。
AI 爬虫正在摧毁网站,Meta、Google、OpenAI 是“主谋”?
在这份报告里,Fastly 把 AI 机器人分成两类,按它们的行为和用途来区分:爬虫(Crawlers)和抓取(Fetchers)。
所谓爬虫机器人,它的工作方式像搜索引擎,它们会系统地扫描网站,把内容收集起来,用于建立可搜索的索引或者用来训练语言模型。这一步是 AI 模型“训练阶段”的前提。
数据上看,爬虫机器人占了 AI 机器人请求量的近 80%,抓取机器人占剩下的 20%。
爬虫机器人通常会去抓取公开可访问、有权威的网站内容,比如新闻网站、教育资源、政府页面、技术文档或者公开数据集。
报告显示,AI 爬虫流量几乎全部被几家公司瓜分:Meta、Google 和 OpenAI 三家加起来就已经占了 95%,其中 Meta 占 52%,Google 23%,OpenAI 20%。
抓取机器人就像模型的“小助理”,当 AI 回答问题时,它们会马上去找相关的网页或资料,让模型能引用权威、最新的信息来支撑答案。也就是说,模型在生成回答的时候,不只是凭自己记忆里的内容,还能实时参考外部数据,这个过程就叫做“推理阶段”。
数据显示,几乎所有抓取请求里,ChatGPT-User 和 OpenAI SearchBot 共计占 98%,也就是说 OpenAI 主要靠 ChatGPT,对网站带来的抓取流量影响最大。其次,Perplexity 的抓取请求量只有 1.53%,不过它的影响力在慢慢上升。
报告进一步指出,排名前四的爬虫公司——Meta、Google、OpenAI 和 Claude——似乎对商业网站特别感兴趣,总爱“盯着”这类内容。
再来看一看 AI 爬虫的流量趋势。数据显示,近几个月以来,Meta 的爬虫明显在慢慢“加速”。
同时,大多数爬虫的频次都挺随性的,有时候会悄悄爬,流量平平,这也导致很多网站可能都没有意识到自己的网站被爬取了。
不过,有时候这些 AI 机器人流量也会爬得过分,连续几天甚至几周,流量可能直接飙到平常的 2–3 倍。
宏观数据背后,其实有不少真实的案例。比如我们此前报道过的乌克兰一家专注于人体 3D 模型的网站 Trilegangers。
作为一家销售 3D 扫描数据的网站,Trilegangers 的七名员工花了十多年时间,建立了网络上最大的“人体数字替身”数据库。殊不知,今年年初,这个一直运行良好的网站突然崩了。CEO Oleksandr Tomchuk 赶紧召集工程师排查,结果发现——在网站已经更新了 robots.txt 的情况下,OpenAI 使用 600 个 IP 来抓取数据,直接把网站爬崩了。
Tomchuk 自述,如果爬虫抓得再温和一些,他可能永远都不会注意到这个问题。为此,Tomchuk 公开怒斥道:“他们的爬虫程序正在摧毁我们的网站!这基本上是一次 DDoS 攻击。”
看不见的成本只能由网站管理员及公司自行承担
确实,AI 机器人如果设计得不合理,会无意中给很多网站服务器带来巨大压力,导致网站慢、服务中断,甚至增加运营成本。尤其是大规模 AI 机器人流量飙升的时候,更让人头疼。
Fastly 也在报告中分享了他们的一些真实案例:
有个爬虫峰值能达到每分钟 1,000 次请求,虽然听起来不算“过”,但对依赖数据库查询或者像 Gitea 这种提供 Git 仓库浏览的系统来说,短时间的高峰就可能让网站卡顿、超时或者出问题。
按需抓取的情况就更夸张了:有一次,一个抓取器峰值竟然达到每分钟 39,000 次请求!这样的流量就算没有恶意,也能把服务器压得喘不过气来,消耗带宽,甚至产生类似 DDoS 攻击的效果。
过量的机器人流量不仅影响用户体验,还会推高基础设施成本,让网站数据分析失真。
遗憾的是,Fastly 的高级安全研究员 Arun Kumar 在报告里说,AI 机器人正在改变人们访问和体验互联网的方式,同时给数字平台带来了新的复杂问题。不管是为了训练 AI 收集数据,还是为了实时提供答案,这些机器人都会带来可见性、控制和成本上的新挑战。“看不到的东西就没法保护,没有明确的验证标准,AI 自动化的风险就会成为数字团队的盲点。”
开发者反击,自制陷阱:工作量证明、zip 炸弹、迷宫
随着 AI 的使用越来越广泛,以及相关工具的发展加速,AI 爬虫事件似乎只会越来越多,而不是减少。面对这些“无视规则”的爬虫,开发者们开始主动反击,用各种奇招保护自己的网站。
用“工作量证明”工具 Anubis
一位名为 Xe Iaso 的 FOSS 开发者曾于今年一月公开怒斥亚马逊的 AI 爬虫工具,称其疯狂抓取自己的 Git 代码托管服务,导致网站频繁崩溃,几乎无法正常运行。
然而,公开喊话并没有起到任何震慑作用, 反而有时爬虫行为愈演愈烈。
忍无可忍的 Xe Iaso 自己开发了一套叫“Anubis” 的系统( https://git.xeserv.us/ )。
这是一个基于工作量证明(Proof-of-Work)的反爬虫机制。当用户访问启用了 Anubis 的网站时,Anubis 会要求浏览器完成一个基于 SHA-256 的 PoW 挑战。
这一挑战需要消耗一定的计算资源,普通用户几乎察觉不到延迟,但对于大规模爬虫而言,这种额外的计算开销会显著增加抓取成本,从而起到抑制作用。
程序员自制“ZIP 炸弹”反击内容窃取
还有一些开发者则采取了更“激烈”的手段。有一天, Ibrahim Diallo 偶然发现,有个网站在实时偷他的博客内容:每当有人访问他们的页面,他们就立刻爬取他最新的文章,把名字和品牌标识删掉,然后假装是自己写的。
一开始,Ibrahim 尝试“手动反击”,故意喂爬虫一些假数据,让对方搬错内容。但没过多久,他觉得这种方式太麻烦,于是决定使用自己的秘密武器——“ZIP 炸弹”。
这个“炸弹”的工作原理是:当爬虫访问他的网站时,他返回一个看起来没问题的小压缩文件。爬虫的服务器会自动下载并尝试解压,结果几 GB 的“垃圾”文件瞬间释放,直接让系统崩溃。
网站访问的验证码变成“DOOM 挑战”,三杀通关才算人类
验证码也被赋予了游戏化的新玩法。云服务平台 Vercel 的 CEO Guillermo Rauch 不久前结合 AI 推出了一种《毁灭战士》(DOOM)式验证码。用户要证明自己是人类,必须在“噩梦模式”下击败三个敌人才能进入网站。
不过,这种方法虽然有效挡住了爬虫,但也让普通用户体验变得耗时繁琐。
基础设施公司也在出招
大型网络基础设施公司也在行动。之前 Cloudflare 发布了 AI迷宫(AI Labyrinth),专门对付未经允许的爬虫。系统检测到异常行为时,会把爬虫引入一个充满虚假页面的迷宫,让爬虫消耗资源、迷失方向。Cloudflare 透露,每天 AI 爬虫在其网络上发起的请求超过 500 亿次,占总流量近 1%。
写在最后
通过以上这些“反爬虫机制”,这样一来,那些靠爬虫到处薅内容的 AI 公司就得多掏钱了。因为流量被拖慢、资源被消耗,他们不得不增加服务器和硬件投入。简单讲,就是让爬虫想干同样的活儿,成本变得更高、不划算。
Fastly 的高级安全研究员 Arun Kumar 对此建议道,小网站尤其是动态内容丰富的网站,首先可以配置 robots.txt 来减少守规矩爬虫流量;若有技术能力,还可以部署像 Anubis 这样的系统来进一步控制爬虫。
然而现实来看,这些手段若使用不当,也可能误伤正常用户,降低用户体验。
同时,也正如 Arun Kumar 所言,「 这场猫捉老鼠的游戏永远不会结束,爬虫总会进化,想办法绕过各种陷阱。」
本文来自微信公众号“CSDN”,整理:屠敏,36氪经授权发布。