對抗 AI 爬蟲霸權:Cloudflare 將預設封鎖「搜尋與訓練」混用的網路機器人
編輯核心觀點
- ✦Cloudflare 宣布將針對同時進行搜尋索引與 AI 模型訓練的「混合型」爬蟲採取預設封鎖策略。
- ✦新政策預計於 2026 年 9 月 15 日生效,網站擁有者將能更精確地控制內容是否被用於 AI 訓練。
- ✦此舉意在挑戰 Google 等大型搜尋引擎,要求其將傳統搜尋功能與 AI 數據採集進行更透明的切割。

網路基礎設施服務商 Cloudflare 近期宣布一項重大政策調整,旨在重新定義網站內容與 AI 企業之間的權利義務關係。該公司將自動封鎖那些「身兼多職」的網路爬蟲(Web Crawlers),即同時負責搜尋引擎索引,又兼具 AI 代理(Agent)與模型訓練功能的機器人。
從選擇性防禦轉向預設封鎖
過去,Cloudflare 僅提供用戶選擇性地阻止 AI 爬蟲抓取其網站內容。隨著網路流量中非人類訪問的比例日益增加,Cloudflare 決定採取更積極的防禦姿態。Cloudflare 執行長暨共同創辦人 Matthew Prince 在聲明中指出:
現在網路上絕大多數的流量皆非人類產生,我們必須採取更進一步、更迅速的行動,以確保一個永續的生態系統能夠形成。Cloudflare 的新工具與合作關係,旨在為網站擁有者提供更高的透明度與商業機會,同時嘉惠那些意圖清晰透明的 AI 機器人。
新政策將於 2026 年 9 月 15 日正式生效。屆時,所有新加入的客戶以及現有用戶的新增網站,將預設「允許搜尋,但封鎖廣告頁面的 AI 訓練與代理使用」。若混合型爬蟲無法提供網站擁有者明確的選擇權,這些爬蟲將被預設封鎖。免費帳戶用戶也將同步適用此預設值,除非用戶在截止日前主動更改設定。
推動「按使用付費」模式
除了封鎖機制外,Cloudflare 也升級了 2025 年推出的「按次爬取(Pay Per Crawl)」功能,並更名為「按使用付費(Pay Per Use)」。與過去根據爬取次數計費不同,新模式改為當網站內容出現在 AI 聊天機器人的回答中時,網站擁有者即可獲得報酬。目前該計畫已與 Ceramic.AI 及 You.com 建立合作關係。
劍指 Google 的數據壟斷
這項政策調整被外界視為對 Google 的間接挑戰。Cloudflare 指出,Google 旗下的爬蟲 Googlebot 同時承擔了搜尋引擎索引與 Gemini 模型訓練的任務。雖然 Google 提供了「Google-Extended」選項讓網站選擇不參與 AI 訓練,但若發布商希望內容出現在 AI 概覽(AI Overviews)中,卻又不願貢獻數據來訓練模型,目前並無折衷方案。
Cloudflare 認為,Google 透過將搜尋與 AI 訓練綁定的方式,使其獲取的數據量遠超其他 AI 公司,導致網站擁有者難以在保持搜尋可見度的同時,拒絕被用於 AI 訓練。透過此次政策更新,Cloudflare 正試圖迫使 Google 等擁有混合型爬蟲的企業,必須在搜尋與 AI 訓練之間做出更明確的技術切割。



