Cloudflare為創作者掌握內容使用權限 拒絕被AI濫用
不想你的網站資訊被其他AI工具濫用?全球連通雲公司Cloudflare透過一項全新的「內容訊號政策」(content signals policy),讓任何網站都能更輕鬆地更新其robots.txt檔案 (一個簡單的文字檔案,以告訴網絡爬蟲哪些網站區域可以或不可以存取)。此項新政策將使網站營運者能夠設定其資料使用偏好,包括選擇拒絕被AI摘要或推理使用。
由「搜尋引擎」轉為AI驅動的「答案引擎」
網際網絡正從「搜尋引擎」(為使用者提供一張可探索資訊的連結地圖),逐漸轉變為由AI驅動的「答案引擎」(直接提供答案),使用者甚至不需要點擊原始網站的內容。這種轉變嚴重威脅到網際網絡的原有商業模式:過往網站、內容發佈者和內容創作者可以透過吸引流量與瀏覽量來獲得收益或名聲。而現今,AI爬蟲會從各網站大量抓取資料,但網站營運者卻沒有管道去清楚表達他們對於自身內容是否允許被使用、如何被使用,以及用於何種用途的細微偏好。
robots.txt檔案讓網站營運者能夠指定哪些網絡爬蟲可以存取網站,以及可以存取網站的哪些部分。然而,它並不能告訴爬蟲在取得內容後能如何使用。因此,我們需要一套標準化、可供機器讀取的方式,來表明即使資料已被存取,其使用方式仍應受到限制或規範。
Cloudflare共同創辦人暨行政總裁Matthew Prince表示:「為了確保網絡保持開放且蓬勃發展,我們正在為網站擁有者提供一種更好的方式,來表達他們允許哪些公司使用其內容。robots.txt是一項未被充分運用的資源,我們可以協助加強它的功能,並向AI公司傳達一個明確訊息:他們不能再忽視內容創作者的偏好。」

助網站營運者阻隔爬蟲採集內容
Cloudflare認為,無論是地方新聞機構、AI初創企業,還是電子商務平台,只要是網站、API、MCP伺服器或任何網際網絡連接服務的營運者,都應該有權決定他人如何將其資料用於商業用途。目前,已有超過380萬個網域使用Cloudflare所提供的受管理robots.txt服務,來表明他們不希望自己的內容被用於訓練用途。如今,Cloudflare的新內容訊號政策將讓使用者能進一步強化他們在robots.txt中所設定的偏好,並針對任何透過自動化方式 (例如AI爬蟲) 存取網站的使用者,提供一套清晰明確的指示。該政策將透過以下方式通知爬蟲:
- 說明如何用簡單的語言解釋內容訊號:「是」表示允許,「否」表示不允許,無訊號表示不表達偏好。
- 明確界定爬蟲常見的內容使用方式,包括搜尋、AI輸入和AI訓練。
- 提醒企業,網站營運者在robots.txt檔案中所表達的偏好,可能具有法律效力。

雖然robots.txt檔案本身未必能完全阻止非授權的資料抓取行為,但Cloudflare的目標是,透過這套強化的政策語言,能更清楚地向機器人操作者傳達網站擁有者的偏好,促使企業更加尊重內容創作者的意願。
即日起,Cloudflare將自動為所有要求其管理robots.txt檔案的客戶,更新該檔案以納入這項新的政策語言。對於任何希望透過自訂的robots.txt檔案來表達爬蟲如何使用其內容的使用者,Cloudflare也發布了相關工具以提供協助。
