微軟 AI 訓練數據遭爆「不乾淨」:宣稱商用授權,實則混用未經授權網路爬蟲資料
編輯核心觀點
- ✦微軟曾公開承諾 MAI 模型僅使用企業級、經授權的乾淨數據進行訓練。
- ✦技術論文顯示該模型實際混合了包含 Common Crawl 在內的公開網路數據。
- ✦微軟辯稱其爬蟲遵守 robots.txt 協議,將內容保護責任轉嫁給網站擁有者。

微軟 AI 訓練數據的「真實面貌」
微軟近期推出的 MAI 模型訓練數據來源引發爭議。儘管微軟先前對外宣稱,其 AI 模型僅採用「企業級、乾淨且具備商業授權」的數據進行訓練,但根據最新的技術論文揭露,微軟實際上也使用了未經授權的公開網路數據。
軟體工程師 Simon Willison 指出,微軟的訓練資料庫中包含了 Common Crawl 等來源。這與微軟過去強調的「乾淨數據」說法存在顯著落差。事實上,微軟在論文中坦承,其訓練數據是「公開可用數據與人類生成授權數據的混合體」。
將數據保護責任轉嫁給網站主
面對網路數據的採集爭議,微軟表示其開發了一套專有的網路爬蟲系統,該系統聲稱會尊重「機器人排除協議(Robots Exclusion Protocol,即 robots.txt)」以及相關的 HTML 控制標籤。微軟認為,這套機制已賦予網站擁有者管理自身內容被存取與使用方式的權限。
然而,這種作法在業界引發批評,認為這等同於將保護內容的負擔完全轉嫁給網站擁有者,如同假設「沒鎖門的人就等於同意他人闖入」。
「合理使用」的法律灰色地帶
與其他大型 AI 公司相同,微軟在處理這些網路爬取數據時,主要依賴「合理使用(Fair Use)」作為法律辯護基礎。然而,目前全球司法體系對於 AI 訓練是否構成合理使用,仍處於爭議與審理階段。微軟的作法與其他 AI 競爭對手並無二致,但其將訓練數據包裝為「特別乾淨」的行銷策略,顯然與技術論文中揭露的事實不符。


