Miso Labs 開源 80 億參數語音模型 MisoTTS：透過殘差向量量化技術，解決 AI 說話「不自然」的難題

突破傳統語音模型的「詞彙量瓶頸」

Miso Labs 近日釋出了一款名為 MisoTTS 的語音生成模型，這是一個擁有 80 億參數的開放權重模型。與傳統語音模型不同，MisoTTS 採用了殘差向量量化（Residual Vector Quantization, RVQ）架構，旨在解決語音合成中常見的「詞彙量問題」。

傳統的 Transformer 模型依賴固定的離散詞彙表，但人類語音極為複雜，包含音調、節奏、強調、情緒與口音等多重變數。若要擴大音訊詞彙量，傳統架構通常需要增加參數，導致模型變得臃腫。MisoTTS 透過 RVQ 技術，將音訊編碼為多個層級的索引向量，在不增加模型參數的前提下，將可定址的詞彙空間擴展至約 10 的 105 次方，大幅提升了語音的表現力與細膩度。

雙 Transformer 架構：兼顧時間與深度

MisoTTS 的架構由兩部分組成：一個 77 億參數的 Backbone（主幹）與一個 3 億參數的 Decoder（解碼器）。Backbone 負責處理時間序列上的自回歸預測，而 Decoder 則負責處理深度上的自回歸預測，重複使用相同的 3 億參數來精煉音訊訊號。這種設計讓模型能夠同時根據文字與先前的音訊情境進行條件設定，有效降低了 AI 語音常見的「恐怖谷效應」。

效能與限制

根據 Miso Labs 的公開數據，MisoTTS 的推論延遲約為 110ms，優於 ElevenLabs 的 700ms 與 Sesame 的 300ms。該模型預設使用 torch.bfloat16 精度，並支援透過 10 秒左右的音訊片段進行一鍵聲音複製（One-shot voice cloning）。

不過，該模型目前仍處於開發初期，存在以下限制：