一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”
5897点击    2025-08-23 12:53

「 这场猫捉老鼠的游戏永远不会结束,爬虫总会进化,想办法绕过各种陷阱。」


“我的网站被爬崩了,自己要付流量费,人家却用我的内容训练出 AI 模型,还赚足了眼球。”


自从 AI 机器人开始流行,很多网站开发者叫苦不堪。而近日,云服务巨头 Fastly 发布的一份报告让人看完直呼“现实往往我们仅听到的部分更为残酷。”


报告显示,现在 AI 爬虫正疯狂冲击互联网,它们抓取网站的速度极快,占了 AI 机器人流量的 80%,剩下的 20% 是按需抓取。


这些 AI 机器人对没有设立防护的网站而言,可不是闹着玩的——其峰值流量甚至能达到每分钟 39,000 个请求!换句话说,一个普通网站可能在一分钟之内被 AI 爬虫和抓取程序“轰炸”上千次,每秒都在承受超负荷压力。


而报告还揭露了罪魁祸首们还是如今众人所知的 Meta、OpenAI 等主流 AI 大厂,为此,开发者也正在蓄力开启「反击之战」。


AI 爬虫正在摧毁网站,Meta、Google、OpenAI 是“主谋”?


在这份报告里,Fastly 把 AI 机器人分成两类,按它们的行为和用途来区分:爬虫(Crawlers)和抓取(Fetchers)。


所谓爬虫机器人,它的工作方式像搜索引擎,它们会系统地扫描网站,把内容收集起来,用于建立可搜索的索引或者用来训练语言模型。这一步是 AI 模型“训练阶段”的前提。


数据上看,爬虫机器人占了 AI 机器人请求量的近 80%,抓取机器人占剩下的 20%。


一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”


爬虫机器人通常会去抓取公开可访问、有权威的网站内容,比如新闻网站、教育资源、政府页面、技术文档或者公开数据集。


报告显示,AI 爬虫流量几乎全部被几家公司瓜分:Meta、Google 和 OpenAI 三家加起来就已经占了 95%,其中 Meta 占 52%,Google 23%,OpenAI 20%。


一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”


抓取机器人就像模型的“小助理”,当 AI 回答问题时,它们会马上去找相关的网页或资料,让模型能引用权威、最新的信息来支撑答案。也就是说,模型在生成回答的时候,不只是凭自己记忆里的内容,还能实时参考外部数据,这个过程就叫做“推理阶段”。


数据显示,几乎所有抓取请求里,ChatGPT-User 和 OpenAI SearchBot 共计占 98%,也就是说 OpenAI 主要靠 ChatGPT,对网站带来的抓取流量影响最大。其次,Perplexity 的抓取请求量只有 1.53%,不过它的影响力在慢慢上升。


一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”


报告进一步指出,排名前四的爬虫公司——Meta、Google、OpenAI 和 Claude——似乎对商业网站特别感兴趣,总爱“盯着”这类内容。


一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”


再来看一看 AI 爬虫的流量趋势。数据显示,近几个月以来,Meta 的爬虫明显在慢慢“加速”。


同时,大多数爬虫的频次都挺随性的,有时候会悄悄爬,流量平平,这也导致很多网站可能都没有意识到自己的网站被爬取了。


不过,有时候这些 AI 机器人流量也会爬得过分,连续几天甚至几周,流量可能直接飙到平常的 2–3 倍。


一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”


宏观数据背后,其实有不少真实的案例。比如我们此前报道过的乌克兰一家专注于人体 3D 模型的网站 Trilegangers。


作为一家销售 3D 扫描数据的网站,Trilegangers 的七名员工花了十多年时间,建立了网络上最大的“人体数字替身”数据库。殊不知,今年年初,这个一直运行良好的网站突然崩了。CEO Oleksandr Tomchuk 赶紧召集工程师排查,结果发现——在网站已经更新了 robots.txt 的情况下,OpenAI 使用 600 个 IP 来抓取数据,直接把网站爬崩了。


Tomchuk 自述,如果爬虫抓得再温和一些,他可能永远都不会注意到这个问题。为此,Tomchuk 公开怒斥道:“他们的爬虫程序正在摧毁我们的网站!这基本上是一次 DDoS 攻击。”


一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”


看不见的成本只能由网站管理员及公司自行承担


确实,AI 机器人如果设计得不合理,会无意中给很多网站服务器带来巨大压力,导致网站慢、服务中断,甚至增加运营成本。尤其是大规模 AI 机器人流量飙升的时候,更让人头疼。


Fastly 也在报告中分享了他们的一些真实案例:


有个爬虫峰值能达到每分钟 1,000 次请求,虽然听起来不算“过”,但对依赖数据库查询或者像 Gitea 这种提供 Git 仓库浏览的系统来说,短时间的高峰就可能让网站卡顿、超时或者出问题。


按需抓取的情况就更夸张了:有一次,一个抓取器峰值竟然达到每分钟 39,000 次请求!这样的流量就算没有恶意,也能把服务器压得喘不过气来,消耗带宽,甚至产生类似 DDoS 攻击的效果。


一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”


过量的机器人流量不仅影响用户体验,还会推高基础设施成本,让网站数据分析失真。


遗憾的是,Fastly 的高级安全研究员 Arun Kumar 在报告里说,AI 机器人正在改变人们访问和体验互联网的方式,同时给数字平台带来了新的复杂问题。不管是为了训练 AI 收集数据,还是为了实时提供答案,这些机器人都会带来可见性、控制和成本上的新挑战。“看不到的东西就没法保护,没有明确的验证标准,AI 自动化的风险就会成为数字团队的盲点。


开发者反击,自制陷阱:工作量证明、zip 炸弹、迷宫


随着 AI 的使用越来越广泛,以及相关工具的发展加速,AI 爬虫事件似乎只会越来越多,而不是减少。面对这些“无视规则”的爬虫,开发者们开始主动反击,用各种奇招保护自己的网站。


用“工作量证明”工具 Anubis


一位名为 Xe Iaso 的 FOSS 开发者曾于今年一月公开怒斥亚马逊的 AI 爬虫工具,称其疯狂抓取自己的 Git 代码托管服务,导致网站频繁崩溃,几乎无法正常运行。


一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”


然而,公开喊话并没有起到任何震慑作用, 反而有时爬虫行为愈演愈烈。


忍无可忍的 Xe Iaso 自己开发了一套叫“Anubis” 的系统( https://git.xeserv.us/ )。


这是一个基于工作量证明(Proof-of-Work)的反爬虫机制。当用户访问启用了 Anubis 的网站时,Anubis 会要求浏览器完成一个基于 SHA-256 的 PoW 挑战。


这一挑战需要消耗一定的计算资源,普通用户几乎察觉不到延迟,但对于大规模爬虫而言,这种额外的计算开销会显著增加抓取成本,从而起到抑制作用。


程序员自制“ZIP 炸弹”反击内容窃取


还有一些开发者则采取了更“激烈”的手段。有一天, Ibrahim Diallo 偶然发现,有个网站在实时偷他的博客内容:每当有人访问他们的页面,他们就立刻爬取他最新的文章,把名字和品牌标识删掉,然后假装是自己写的。


一开始,Ibrahim 尝试“手动反击”,故意喂爬虫一些假数据,让对方搬错内容。但没过多久,他觉得这种方式太麻烦,于是决定使用自己的秘密武器——“ZIP 炸弹”


这个“炸弹”的工作原理是:当爬虫访问他的网站时,他返回一个看起来没问题的小压缩文件。爬虫的服务器会自动下载并尝试解压,结果几 GB 的“垃圾”文件瞬间释放,直接让系统崩溃。


网站访问的验证码变成“DOOM 挑战”,三杀通关才算人类


验证码也被赋予了游戏化的新玩法。云服务平台 Vercel 的 CEO Guillermo Rauch 不久前结合 AI 推出了一种《毁灭战士》(DOOM)式验证码。用户要证明自己是人类,必须在“噩梦模式”下击败三个敌人才能进入网站。


一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”


不过,这种方法虽然有效挡住了爬虫,但也让普通用户体验变得耗时繁琐。


基础设施公司也在出招


大型网络基础设施公司也在行动。之前 Cloudflare 发布了 AI迷宫(AI Labyrinth),专门对付未经允许的爬虫。系统检测到异常行为时,会把爬虫引入一个充满虚假页面的迷宫,让爬虫消耗资源、迷失方向。Cloudflare 透露,每天 AI 爬虫在其网络上发起的请求超过 500 亿次,占总流量近 1%。


写在最后


通过以上这些“反爬虫机制”,这样一来,那些靠爬虫到处薅内容的 AI 公司就得多掏钱了。因为流量被拖慢、资源被消耗,他们不得不增加服务器和硬件投入。简单讲,就是让爬虫想干同样的活儿,成本变得更高、不划算。


Fastly 的高级安全研究员 Arun Kumar 对此建议道,小网站尤其是动态内容丰富的网站,首先可以配置 robots.txt 来减少守规矩爬虫流量;若有技术能力,还可以部署像 Anubis 这样的系统来进一步控制爬虫。


然而现实来看,这些手段若使用不当,也可能误伤正常用户,降低用户体验。


同时,也正如 Arun Kumar 所言,「 这场猫捉老鼠的游戏永远不会结束,爬虫总会进化,想办法绕过各种陷阱。」


文章来自于微信公众号“CSDN”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/