打破自回歸限制：Interfaze 開源 Diffusion ASR 模型，以平行解碼挑戰語音識別效率

打破自回歸限制：平行解碼的新嘗試

由 YC 孵化的新創公司 Interfaze 近期開源了一款名為 diffusion-gemma-asr-small 的語音識別（ASR）模型。這項技術的關鍵突破在於其採用了「擴散解碼器（Diffusion Decoder）」而非傳統的自回歸（Autoregressive）架構。傳統模型通常逐個 token 生成文字，而擴散模型則能同時對所有 token 進行細化，這為語音轉文字的處理流程帶來了新的可能性。

技術架構：Whisper 與 DiffusionGemma 的結合

該模型並非直接處理原始波形，而是利用凍結參數的 whisper-small 編碼器作為特徵提取器。Whisper 將 30 秒的音訊轉換為 1500 個幀，隨後透過一個可訓練的投影層（Projector）壓縮為 188 個音訊 token，並填入 DiffusionGemma 的提示詞槽位中。DiffusionGemma 作為 Google 開發的 260 億參數混合專家模型，負責透過雙向去噪過程，將這些特徵轉化為文字。

為了克服訓練初期的梯度消失問題，研究團隊引入了 CTC（Connectionist Temporal Classification）損失函數，直接對投影層進行監督，使音訊嵌入能與正確詞彙建立線性預測關係，成功讓模型從無法學習的狀態轉向穩定收斂。

效能評估與應用場景

根據 Interfaze 提供的數據，diffusion-gemma-asr-small 在 LibriSpeech test-clean 基準測試中達到了 6.6% 的字詞錯誤率（WER），優於同類擴散模型 Whisfusion（8.3%），但目前仍落後於自回歸架構的 Whisper 模型。然而，該模型在平行解碼上的優勢顯著：

轉錄成本隨去噪步驟而定，而非轉錄長度。

這意味著對於批次處理任務，該模型能提供更穩定的執行效率。目前該模型支援英語、德語、法語、西班牙語、印地語及中文（Mandarin）六種語言，且開發者僅需載入單一適配器即可進行多語言轉錄，無需為每種語言單獨載入模型。

如何開始使用

該模型已於 Hugging Face 上架，開發者可透過 huggingface_hub 下載適配器，並搭配 transformers 庫進行部署。模型預設使用 16 個去噪步驟，開發者可根據對速度與精確度的需求調整 max_steps 參數。需注意的是，該模型依賴的基礎架構分別遵循各自的授權協議，其中 DiffusionGemma 遵循 Gemma 條款，而 whisper-small 則採用 MIT 授權。

打破自回歸限制：Interfaze 開源 Diffusion ASR 模型，以平行解碼挑戰語音識別效率

編輯核心觀點

打破自回歸限制：平行解碼的新嘗試

技術架構：Whisper 與 DiffusionGemma 的結合

效能評估與應用場景

如何開始使用

資料來源

相關文章

美團「隱形」AI 模型 LongCat-2.0 揭曉：挑戰 GPT-5.5 的高性價比算力黑馬

NVIDIA「雙塔」擴散模型問世：Nemotron-Labs-TwoTower 如何在不犧牲品質下，讓文字生成速度飆升 2.42 倍？

AI 獵殺漏洞潮來襲：資安弱點通報數單月暴增 3.5 倍

澳洲新創最後通牒：TechCrunch Startup Battlefield 報名 7 月 6 日截止