微軟 AI 訓練數據遭爆「不乾淨」：宣稱商用授權，實則混用未經授權網路爬蟲資料

微軟 AI 訓練數據的「真實面貌」

微軟近期推出的 MAI 模型訓練數據來源引發爭議。儘管微軟先前對外宣稱，其 AI 模型僅採用「企業級、乾淨且具備商業授權」的數據進行訓練，但根據最新的技術論文揭露，微軟實際上也使用了未經授權的公開網路數據。

軟體工程師 Simon Willison 指出，微軟的訓練資料庫中包含了 Common Crawl 等來源。這與微軟過去強調的「乾淨數據」說法存在顯著落差。事實上，微軟在論文中坦承，其訓練數據是「公開可用數據與人類生成授權數據的混合體」。

將數據保護責任轉嫁給網站主

面對網路數據的採集爭議，微軟表示其開發了一套專有的網路爬蟲系統，該系統聲稱會尊重「機器人排除協議（Robots Exclusion Protocol，即 robots.txt）」以及相關的 HTML 控制標籤。微軟認為，這套機制已賦予網站擁有者管理自身內容被存取與使用方式的權限。

然而，這種作法在業界引發批評，認為這等同於將保護內容的負擔完全轉嫁給網站擁有者，如同假設「沒鎖門的人就等於同意他人闖入」。

「合理使用」的法律灰色地帶

與其他大型 AI 公司相同，微軟在處理這些網路爬取數據時，主要依賴「合理使用（Fair Use）」作為法律辯護基礎。然而，目前全球司法體系對於 AI 訓練是否構成合理使用，仍處於爭議與審理階段。微軟的作法與其他 AI 競爭對手並無二致，但其將訓練數據包裝為「特別乾淨」的行銷策略，顯然與技術論文中揭露的事實不符。

微軟 AI 訓練數據遭爆「不乾淨」：宣稱商用授權，實則混用未經授權網路爬蟲資料

編輯核心觀點

微軟 AI 訓練數據的「真實面貌」

將數據保護責任轉嫁給網站主

「合理使用」的法律灰色地帶

資料來源

相關文章

軟體巨頭的兩難：微軟為何對高效能 AI 模型 Claude Fable 5 設下使用禁令？

Anthropic 新模型 Claude Fable 5 引發企業恐慌：AI 治理權力落入私人企業手中？

AI 代理人走出雲端！Moonshot AI 推 Kimi Work，讓 300 個子代理人直接在你的電腦上工作

白宮草坪變身格鬥場：UFC Freedom 250 爭議與加密貨幣行銷戰