深度揭密:AI音樂訓練資料庫暗藏百萬盜版音軌,巨頭Google、Stability也曾取用
編輯核心觀點
- ✦《大西洋月刊》記者揭露四大AI音樂訓練資料庫,包含數百萬首未經授權的音軌,引發版權爭議。
- ✦Google與Stability等AI巨頭已證實曾使用這些資料集,其中許多歌曲透過違反平台服務條款的工具非法下載。
- ✦這些資料庫收錄了從流行天后女神卡卡到實驗音樂家海因巴赫等多元藝術家的作品,凸顯AI訓練資料來源的灰色地帶。

人工智慧(AI)的快速發展,正以前所未有的速度改變各行各業,但其背後龐大的訓練資料來源,卻也逐漸浮現倫理與法律的灰色地帶。近日,《大西洋月刊》(The Atlantic)記者艾力克斯.雷斯納(Alex Reisner)揭露了四個被廣泛用於訓練AI模型的音樂資料集,其中包含數百萬首歌曲,許多音軌的取得方式與使用權限,都引發了嚴重的版權疑慮。
AI訓練資料庫規模驚人,巨頭亦曾取用
雷斯納的調查發現,這四個音樂資料集規模驚人,其中兩個分別擁有高達1,200萬和900萬首音軌,另外兩個較小,但也各自收錄了超過10萬首歌曲。這些資料集已被下載數千次,儘管難以確切追溯所有使用者,但Google和Stability兩家AI領域的巨頭,都已在各自的研究論文中證實曾使用這些資料集來訓練AI模型。
這些資料集中的部分音源,例如來自「自由音樂檔案庫」(Free Music Archive)的內容,雖然允許個人免費串流使用,但若要用於商業應用,則需要額外取得授權。然而,AI模型訓練顯然屬於商業範疇,這使得這些「免費」資料集的商業用途,面臨嚴峻的合法性挑戰。
自動化工具繞過平台限制,侵權爭議難解
雷斯納進一步解釋,這些資料集雖然在網路上「理論上」可供自由取得,但其背後的實際操作遠非簡單下載壓縮檔那麼單純。他指出,其中三個資料集是以YouTube或Spotify等平台上的歌曲連結列表形式散布。AI開發者會使用自動化工具來下載實際的音訊檔案,而這些工具往往能繞過登入驗證、廣告,以及創作者藉由平台賺取收益或訂閱的機制。這種行為,無疑嚴重違反了這些串流平台的服務條款。
我發現的三個資料集是以YouTube或Spotify上歌曲連結列表的形式散布。AI開發者會使用自動化工具來下載實際的音訊檔案,其中一些工具允許開發者繞過登入驗證、廣告,以及可能為創作者賺取收益或訂閱的機制。這類工具違反了這些平台的服務條款。
這些資料集中的藝術家名單涵蓋了廣泛的音樂類型,從流行天后女神卡卡(Lady Gaga)、電子音樂人佛萊德.艾根(Fred Again..),到搖滾樂團電台司令(Radiohead)、實驗電子音樂家艾菲克斯雙胞胎(Aphex Twin)、嘻哈團體武當幫(Wu-Tang Clan)、搖滾巨星布魯斯.史普林斯汀(Bruce Springsteen),甚至實驗作曲家海因巴赫(Hainbach)等,無一倖免。這意味著,無論是主流巨星還是小眾藝術家,其作品都可能在未經授權的情況下,被用於訓練AI。
為了讓公眾了解AI訓練資料的來源,《大西洋月刊》也特別設立了「AI監察網站」(AI Watchdog site),讓使用者可以自行查詢有哪些歌曲、書籍或其他媒體內容被用於訓練全球的AI模型。
這項揭露凸顯了AI產業在資料倫理與版權規範上的巨大挑戰。隨著AI技術的普及,如何確保訓練資料的合法性與透明度,同時保障創作者的權益,將是未來數位時代必須面對的關鍵議題。



