返回首頁

打破自回歸限制:Interfaze 開源 Diffusion ASR 模型,以平行解碼挑戰語音識別效率

編輯核心觀點

  • Interfaze 發布首款開源多語言語音識別模型 diffusion-gemma-asr-small,採用擴散模型而非傳統自回歸架構進行轉錄。
  • 該模型透過約 4200 萬參數的適配器(Adapter)驅動 260 億參數的 DiffusionGemma 主幹,支援六種語言的平行解碼。
  • 其轉錄成本取決於去噪步驟而非音訊長度,在 LibriSpeech 基準測試中以 6.6% 的字詞錯誤率領先同類擴散模型。
打破自回歸限制:Interfaze 開源 Diffusion ASR 模型,以平行解碼挑戰語音識別效率

打破自回歸限制:平行解碼的新嘗試

由 YC 孵化的新創公司 Interfaze 近期開源了一款名為 diffusion-gemma-asr-small 的語音識別(ASR)模型。這項技術的關鍵突破在於其採用了「擴散解碼器(Diffusion Decoder)」而非傳統的自回歸(Autoregressive)架構。傳統模型通常逐個 token 生成文字,而擴散模型則能同時對所有 token 進行細化,這為語音轉文字的處理流程帶來了新的可能性。

技術架構:Whisper 與 DiffusionGemma 的結合

該模型並非直接處理原始波形,而是利用凍結參數的 whisper-small 編碼器作為特徵提取器。Whisper 將 30 秒的音訊轉換為 1500 個幀,隨後透過一個可訓練的投影層(Projector)壓縮為 188 個音訊 token,並填入 DiffusionGemma 的提示詞槽位中。DiffusionGemma 作為 Google 開發的 260 億參數混合專家模型,負責透過雙向去噪過程,將這些特徵轉化為文字。

為了克服訓練初期的梯度消失問題,研究團隊引入了 CTC(Connectionist Temporal Classification)損失函數,直接對投影層進行監督,使音訊嵌入能與正確詞彙建立線性預測關係,成功讓模型從無法學習的狀態轉向穩定收斂。

效能評估與應用場景

根據 Interfaze 提供的數據,diffusion-gemma-asr-small 在 LibriSpeech test-clean 基準測試中達到了 6.6% 的字詞錯誤率(WER),優於同類擴散模型 Whisfusion(8.3%),但目前仍落後於自回歸架構的 Whisper 模型。然而,該模型在平行解碼上的優勢顯著:

轉錄成本隨去噪步驟而定,而非轉錄長度。

這意味著對於批次處理任務,該模型能提供更穩定的執行效率。目前該模型支援英語、德語、法語、西班牙語、印地語及中文(Mandarin)六種語言,且開發者僅需載入單一適配器即可進行多語言轉錄,無需為每種語言單獨載入模型。

如何開始使用

該模型已於 Hugging Face 上架,開發者可透過 huggingface_hub 下載適配器,並搭配 transformers 庫進行部署。模型預設使用 16 個去噪步驟,開發者可根據對速度與精確度的需求調整 max_steps 參數。需注意的是,該模型依賴的基礎架構分別遵循各自的授權協議,其中 DiffusionGemma 遵循 Gemma 條款,而 whisper-small 則採用 MIT 授權。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章