Miso Labs 開源 80 億參數語音模型 MisoTTS:透過殘差向量量化技術,解決 AI 說話「不自然」的難題
編輯核心觀點
- ✦Miso Labs 發布 80 億參數的 MisoTTS 模型,採用殘差向量量化(RVQ)技術,在不增加模型參數的情況下大幅擴展音訊詞彙量。
- ✦該模型不僅能根據文字生成語音,還能接收音訊作為情境輸入,讓生成的語音能精準捕捉並回應說話者的語氣與情緒。
- ✦目前該模型已在修改後的 MIT 授權下開源,具備在地化部署能力,但現階段僅支援半雙工模式,尚未具備自動輪流對話功能。

突破傳統語音模型的「詞彙量瓶頸」
Miso Labs 近日釋出了一款名為 MisoTTS 的語音生成模型,這是一個擁有 80 億參數的開放權重模型。與傳統語音模型不同,MisoTTS 採用了殘差向量量化(Residual Vector Quantization, RVQ)架構,旨在解決語音合成中常見的「詞彙量問題」。
傳統的 Transformer 模型依賴固定的離散詞彙表,但人類語音極為複雜,包含音調、節奏、強調、情緒與口音等多重變數。若要擴大音訊詞彙量,傳統架構通常需要增加參數,導致模型變得臃腫。MisoTTS 透過 RVQ 技術,將音訊編碼為多個層級的索引向量,在不增加模型參數的前提下,將可定址的詞彙空間擴展至約 10 的 105 次方,大幅提升了語音的表現力與細膩度。
雙 Transformer 架構:兼顧時間與深度
MisoTTS 的架構由兩部分組成:一個 77 億參數的 Backbone(主幹)與一個 3 億參數的 Decoder(解碼器)。Backbone 負責處理時間序列上的自回歸預測,而 Decoder 則負責處理深度上的自回歸預測,重複使用相同的 3 億參數來精煉音訊訊號。這種設計讓模型能夠同時根據文字與先前的音訊情境進行條件設定,有效降低了 AI 語音常見的「恐怖谷效應」。
效能與限制
根據 Miso Labs 的公開數據,MisoTTS 的推論延遲約為 110ms,優於 ElevenLabs 的 700ms 與 Sesame 的 300ms。該模型預設使用 torch.bfloat16 精度,並支援透過 10 秒左右的音訊片段進行一鍵聲音複製(One-shot voice cloning)。
不過,該模型目前仍處於開發初期,存在以下限制:
- 僅支援半雙工(Half-duplex):目前無法在對方說話時同時進行對話,尚不具備自動輪流對話(Turn-taking)的能力。
- 硬體需求:需要具備 CUDA 支援的 GPU 才能進行在地化部署。
- API 尚未開放:雖然官方已預告將提供 API 存取,但目前尚未正式上線。
MisoTTS 目前已在 Hugging Face 上釋出權重,並採用修改後的 MIT 授權條款,允許開發者在本地端進行部署,確保敏感音訊資料不會外流。



