昨天看到一個非常有意思的事情。
這是第一次,全世界最大的網絡基礎設施公司之一,Cloudflare,開始用魔法打敗魔法,用 AI 來對抗 AI 爬蟲。
這事情的有意思的程度,足以載入 AI 發展史冊。
這是一次AI 領域的全面戰爭。
你可能現在還有很多疑惑,Cloudflare 是什么,AI 爬蟲是什么,AI 迷宮又是什么,這個事到底有意思在哪。
這一切的開始,我想先跟你講一個故事。
一個在今年 1 月份,發生在一個僅有 7 人的烏克蘭公司的故事。
這個公司叫做 Triplegangers,做的業務特別簡單,就是賣人的 3D 數字模型。
Triplegangers 專注于銷售“人體的數字孿生”模型素材,這些高清 3D 模型照片來自真實的人類掃描,價值巨大。
更多3D模型類網站:
創始人 Tomchuk 一直很滿意,公司雖然不大,但是是他最喜歡的事情。
這個網站上,一共有 65000 個產品頁面,每個產品的頁面至少放著三張高清照片。 每一張圖片,都細致地標注了年齡、膚色、紋身甚至傷疤。
但是,就在一個普通的周六早上, 平靜被一場風暴驟然打破。
Tomchuk 收到了一條緊急通知:公司網站崩潰了,因為受到了大量的 DDoS 攻擊。
他懵逼了,因為平時也沒啥仇人,更沒啥競品,守著自己那一畝三分地,誰會好好的來攻擊自己呢?
他驚慌失措地開始調查原因,很快發現,居然是 OpenAI 的爬蟲機器人,GPTBot 在攻擊他的網站。
GPTBot 瘋狂地爬取每一個頁面, 數十萬張照片、數十萬個描述, 在短短幾小時內被無情下載。
這些爬蟲機器人使用了整整 600 個 IP 地址,數以萬計的服務器請求,這種網站哪見過這種架勢,網站的服務器瞬間癱瘓,業務陷入停滯。
Tomchuk 人都傻了,不僅自己的數據全丟了,被 OpenAI 爬的干干凈凈,更糟的是,由于服務器壓力暴漲, 公司還將面臨一筆巨額的 AWS 賬單。
他們這個七人的團隊花了十年心血,才構建了這個龐大的數據庫,客戶遍及游戲開發、動畫制作等多個行業。
而現在,啥也沒了。
更令人無奈的是,他們原本就明確禁止爬蟲機器人未經許可抓取網站數據。
但是因為沒那么懂 AI,也不太知道那些 AI 大模型公司的玩法,所以沒有嚴格配置 robot.txt 文件,沒有配專門告知 OpenAI 的機器人 GPTBot 不要訪問該網站的標簽,這基本等同于默認允許了 OpenAI 的抓取行為。
關鍵是吧,配了 GPTBot 的標簽也不夠,因為 OpenAI 還有 ChatGPT-User 和 OAI-SearchBot,這兩個標簽也要配。你甚至不知道他們還有啥。
"我們原以為禁止條款就足夠了,沒想到還必須專門設定拒絕機器人的規則。"
幾天后,Tomchuk 終于設置好了 Triplegangers 的 robot.txt 文件,并啟用了 Cloudflare 服務以屏蔽更多爬蟲。
Cloudflare 大家可能沒聽過,但是大多數人應該都見過。
就這個玩意,讓你在進入某些網頁之前,驗證一下你是否是人類。
不過這玩意也不是免費的,挺燒錢的,都是成本。但是為了再防一波 OpenAI 那種流氓行為,他們只能啟用。
這些服務的錢,都還好說,但是讓 Tomchuk 最痛苦的事,他根本不知道,OpenAI 到底拿走了多少素材。
而且,Tomchuk 說:
"我們甚至聯系不上 OpenAI,也無法要求他們刪除已抓取的數據。"
甚至最離譜的是,如果不是 OpenAI 這么貪,一次性請求太多,直接把 Triplegangers 爬崩潰了,而是慢慢爬,一點一點的。
Tomchuk 可能這輩子都發現不了自己的數據已經全部丟的干干凈凈了。
OpenAI 的爬蟲邏輯很簡單,如果你家門口沒有保安站崗,那就說明你默認你家里的東西我就都可以拿走,都是我的。因為你沒說不準我拿,也沒設保安,所以我就可以進門全部洗劫一空。
這是一場戰爭。
一場沒有硝煙的戰爭。
一場關乎于保護自己財產神圣不可侵犯的戰爭。
一場關乎于我們,跟這些 AI 公司的 AI 爬蟲的戰爭。
Trilegangers 的遭遇并不是孤例。
在許多許多公司和內容創作者的眼中,AI 爬蟲就是這個時代的數字蝗蟲,所過之處令網站不堪重負,數據還被洗劫一空。
去年夏天,還有一個著名的的例子,來自于非常老牌的維修教程網站,iFixit。
iFixit 發現,他們的網站也成了 AI 爬蟲的盤中餐。
但這一次,吃相難看的不是 OpenAI,而是另一個 AI 王者,Anthropic 公司的爬蟲 ClaudeBot。
當時 iFixit 的 CEO 怒不可遏地在社交媒體上爆料:
ClaudeBot 在短短 24 小時內瘋狂訪問了 iFixit 近一百萬次。直接差點把他們的網站擠爆,觸發了所有報警系統,迫使 iFixit 的運維團隊連夜加班處理。
更離譜的是,iFixit 早就明文禁止未經許可抓取他們的內容用于 AI 訓練,這一條清清楚楚地寫進了網站的使用條款,甚至特別注明“不得將本網站內容用于機器學習或 AI 模型的訓練”。
但是 Anthropic 的爬蟲明顯不 care 這些聲明,依舊我行我素地狂扒數據。
更讓無語的是,當這事爆了之后,有媒體就去問 Anthropic,對方給出的回應幾乎和 OpenAI 如出一轍:
他們表示 ClaudeBot 爬蟲是遵守 robots.txt 的,如果網站不想被抓,就應該在 robots 文件里屏蔽 Claude。
言下之意,就是 iFixit 你自己明明沒說啊,沒在 robots.txt 徹底封禁啊,我們當然就有權一直爬下去啊。
無奈之下,iFixit 只好趕緊修改了 robots.txt,添加了針對 ClaudeBot 的延遲和阻止規則。
可這件事留給業界的震動卻揮之不去,坦率的講,連 iFixit 這樣熟悉網絡技術的知名網站,一開始都沒料到 AI 爬蟲會如此不講武德,明知道別人不情愿卻還要硬闖。
如果連老牌互聯網從業者都防不勝防,那其他那些沒技術團隊守衛的小網站、小作者,又咋招架這些竊賊?
甚至更不要臉的是那個 AI 搜索鼻祖,Perplexity。
知名科技媒體《連線》(Wired)發現,Perplexity 的爬蟲不僅沒有遵守一些網站的 robots.txt 禁令,甚至試圖悄悄抓取那些明確聲明不開放給機器的角落。
換句話說,就是 Perplexity 公然無視 robots 協議,偷偷攫取了本不該拿的內容。
可能你看到這里,會疑惑 robots 協議是個啥。
我們把時間倒回 1994 年,那個時候網絡上也正經歷著爬蟲之亂。
彼時搜索引擎剛興起,一些自動爬蟲程序在網上橫沖直撞,給服務器造成了不小的負擔。
于是,一位名叫 Martijn Koster 的荷蘭工程師,提出了一個非常巧妙的主意:
網站管理員可以在站點根目錄放一個名為“robots.txt”的文本文件,提前告訴網絡機器人,哪里可以爬、哪里不許碰。
這個提議很快得到了行業的廣泛認可,成為互聯網早期一種非常純粹的“君子協定”。
根據 robots 協議,如果網站在 robots.txt 里標明了禁止抓取某些內容,那么守規矩的爬蟲就應該乖乖止步,不去觸碰那些被列入黑名單的路徑。
這套機制本質上完全依賴自覺,它沒有法律強制力,靠的是爬蟲開發者愿意遵守規則的良知和誠意。
但令人欣慰的是,在相當長的歲月里,這種誠意基本上保持了下來。
Google、Yahoo 等搜索引擎尊重 robots.tx 的邊界,微軟的 Bing 也是如此,甚至后來各式各樣善意的網絡爬蟲,都把不傷害網站、遵循站長意愿當作職業道德的一部分。
正因為有 robots.txt 的存在,網站管理員才愿意敞開大門讓搜索引擎索引內容,他們相信敏感或不想公開的角落可以被禮貌地避開。
這份信任,構筑了網絡內容自由流通和公平利用的基礎。
但是現在,這份來之不易的信任正被無情地侵蝕。
當 AI 爬蟲為了填飽模型的數據需求四處出擊時,又有多少還真正尊重 robots.txt 的邊界?
OpenAI、Anthropic 固然口口聲聲我們遵守 robots 協議,但事實是,如果你沒明確寫禁令,他們就默認可以來拿,絲毫不考慮你是否情愿。
只要你沒用足夠堅固的墻把我擋住,那就是你的錯,我闖進來就理所應當。
這種倒打一耙的邏輯讓人憤慨之余,也透出一絲悲哀。
所以,在這種背景下,Cloudflare 挺身而出,作為大多數網站前的守護者,他們決定,用魔法打敗魔法,用 AI,對抗 AI。
他們為這些 AI 爬蟲,造了一整座 AI 迷宮。
因為過往的防御邏輯很簡單,就是用驗證的方式,直接把這些 AI 爬蟲攔在門外,這樣會有個問題,反而會驚動敵人,讓他們換個馬甲卷土重來。
比如 OpenAI 就有 N 個 AI 爬蟲。
所以他們這次的更新,用了一個更陰柔的做法:
放對手進來,但是領著它走進一個精心編織的虛假網頁迷宮。
在這個迷宮里,所有的頁面、鏈接和內容都是 AI 自動生成的,看上去像模像樣,卻全都是無意義的空城計。
那些 AI 爬蟲一旦被引誘進去,就會在假內容中團團轉,白白浪費計算資源和帶寬。
而這些迷宮入口對正常用戶是隱形的,真人訪客根本不會點擊到那些陷阱鏈接。而 AI 爬蟲則樂此不疲地一路追蹤下去,越陷越深,直到在虛假的信息泥潭中迷失方向。
大衛終于也有了一塊對付歌利亞的利器。
Cloudflare 他們在 blog 中寫道:
這是一場戰爭,一邊是如狼似虎、到處搜刮數據的 AI 爬蟲大軍,另一邊則是苦苦守衛自己數字領土的網站站長和內容創作者們。
我不否認大模型需要海量數據訓練,創新常常伴隨著對舊有規則的沖撞。
互聯網歷史上類似的矛盾并非首次:音樂產業曾與數字盜版激烈交鋒,新聞出版商也為搜索引擎收錄內容而抗議。
也許在很多 AI 公司看來,網絡上的公開內容皆是取之無害、用之無罪的公共資源,抓了又何妨?
但是有沒有想過內容生產者的感受呢?知識和創意的源頭若得不到尊重和回報,最終枯竭的將是創新本身。沒有人愿意辛苦耕耘卻被機器毫無顧忌地偷走成果。
至少在現有的倫理和經濟體系下,這種行為會磨滅創作者的熱情。
到最后,網絡上留下的,全部是 AI 生產的 AI 垃圾,淹沒了整個互聯網。
戰爭已經打響,而 AI 領域的這場較量正是從爬蟲開始的。
我只希望,當硝煙散去,我們還能擁有一個我們所熱愛的、開放而可信的互聯網。
拋開那些宏大的技術敘事,對于我們每一個普通網民而言。
這才是我們最值得去捍衛的東西。
不是嗎?
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星
發表評論 為下方 9 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓