深度揭密：AI音樂訓練資料庫暗藏百萬盜版音軌，巨頭Google、Stability也曾取用

人工智慧（AI）的快速發展，正以前所未有的速度改變各行各業，但其背後龐大的訓練資料來源，卻也逐漸浮現倫理與法律的灰色地帶。近日，《大西洋月刊》（The Atlantic）記者艾力克斯．雷斯納（Alex Reisner）揭露了四個被廣泛用於訓練AI模型的音樂資料集，其中包含數百萬首歌曲，許多音軌的取得方式與使用權限，都引發了嚴重的版權疑慮。

AI訓練資料庫規模驚人，巨頭亦曾取用

雷斯納的調查發現，這四個音樂資料集規模驚人，其中兩個分別擁有高達1,200萬和900萬首音軌，另外兩個較小，但也各自收錄了超過10萬首歌曲。這些資料集已被下載數千次，儘管難以確切追溯所有使用者，但Google和Stability兩家AI領域的巨頭，都已在各自的研究論文中證實曾使用這些資料集來訓練AI模型。

這些資料集中的部分音源，例如來自「自由音樂檔案庫」（Free Music Archive）的內容，雖然允許個人免費串流使用，但若要用於商業應用，則需要額外取得授權。然而，AI模型訓練顯然屬於商業範疇，這使得這些「免費」資料集的商業用途，面臨嚴峻的合法性挑戰。

自動化工具繞過平台限制，侵權爭議難解

雷斯納進一步解釋，這些資料集雖然在網路上「理論上」可供自由取得，但其背後的實際操作遠非簡單下載壓縮檔那麼單純。他指出，其中三個資料集是以YouTube或Spotify等平台上的歌曲連結列表形式散布。AI開發者會使用自動化工具來下載實際的音訊檔案，而這些工具往往能繞過登入驗證、廣告，以及創作者藉由平台賺取收益或訂閱的機制。這種行為，無疑嚴重違反了這些串流平台的服務條款。

我發現的三個資料集是以YouTube或Spotify上歌曲連結列表的形式散布。AI開發者會使用自動化工具來下載實際的音訊檔案，其中一些工具允許開發者繞過登入驗證、廣告，以及可能為創作者賺取收益或訂閱的機制。這類工具違反了這些平台的服務條款。

這些資料集中的藝術家名單涵蓋了廣泛的音樂類型，從流行天后女神卡卡（Lady Gaga）、電子音樂人佛萊德．艾根（Fred Again..），到搖滾樂團電台司令（Radiohead）、實驗電子音樂家艾菲克斯雙胞胎（Aphex Twin）、嘻哈團體武當幫（Wu-Tang Clan）、搖滾巨星布魯斯．史普林斯汀（Bruce Springsteen），甚至實驗作曲家海因巴赫（Hainbach）等，無一倖免。這意味著，無論是主流巨星還是小眾藝術家，其作品都可能在未經授權的情況下，被用於訓練AI。

為了讓公眾了解AI訓練資料的來源，《大西洋月刊》也特別設立了「AI監察網站」（AI Watchdog site），讓使用者可以自行查詢有哪些歌曲、書籍或其他媒體內容被用於訓練全球的AI模型。

這項揭露凸顯了AI產業在資料倫理與版權規範上的巨大挑戰。隨著AI技術的普及，如何確保訓練資料的合法性與透明度，同時保障創作者的權益，將是未來數位時代必須面對的關鍵議題。

深度揭密：AI音樂訓練資料庫暗藏百萬盜版音軌，巨頭Google、Stability也曾取用

編輯核心觀點

AI訓練資料庫規模驚人，巨頭亦曾取用

自動化工具繞過平台限制，侵權爭議難解

資料來源

相關文章

Google AI 影像生成器殺價搶市：極速、超低價背後，是與好萊塢的矛盾與「AI 劣質內容」的挑戰

諾貝爾獎得主約翰．詹珀投奔 Anthropic：Google DeepMind 人才流失警訊浮現？

諾貝爾獎得主出走！AlphaFold 核心推手 John Jumper 離開 Google DeepMind 加入 Anthropic

英特爾谷底翻身：從川普概念股到 AI 推論架構的核心角色