NVIDIA 發表 Nemotron 3.5 ASR：單一模型即時轉錄 40 種語言，挑戰語音 AI 部署效率

打破模型堆疊困境：單一檢查點涵蓋 40 種語言

NVIDIA Nemotron 語音團隊近日發布了 Nemotron 3.5 ASR，這是一款擁有 6 億參數的串流式自動語音辨識（ASR）模型。該模型最大的技術突破在於，透過提示詞（Prompt-based）的語言識別調節機制，讓單一檢查點（Checkpoint）就能處理包含英語、西班牙語、德語、法語、阿拉伯語、日語、韓語、中文及印地語等 40 種語言與地區方言，徹底解決了過去需針對不同語言部署多個模型或頻繁切換的繁瑣流程。

Cache-Aware 架構：從重複運算到高效快取

Nemotron 3.5 ASR 的核心架構由 24 層的 Cache-Aware FastConformer 編碼器與 RNNT 解碼器組成。傳統的串流式語音辨識常因重複處理重疊的音訊視窗而導致運算冗餘與延遲，而 NVIDIA 的設計則將編碼器的自我注意力（Self-attention）與卷積狀態進行快取。

每個音訊幀僅需處理一次，且無重疊運算，這使得運算負載與端到端延遲大幅下降，且不會犧牲辨識準確度。

根據 NVIDIA 實測，在 H100 GPU 上，該架構的併發處理能力達到傳統緩衝串流方法的 17 倍。

推論時的靈活性：延遲與精準度的平衡

開發者無需重新訓練模型，即可透過 att_context_size 參數在推論時動態調整延遲與準確度的平衡。該設定對應的區塊大小涵蓋 80ms、160ms、320ms、560ms 與 1.12s。例如，設定為 80ms 可實現超低延遲的即時轉錄，而 1.12s 則能提供更高的辨識精準度。

開放權重帶來的微調潛力

由於採用 OpenMDW-1.1 授權並開放權重，使用者可針對特定領域、口音或語言進行微調。NVIDIA 以希臘語與保加利亞語為例，透過在 FLEURS 資料集上的測試，在 80ms 的低延遲模式下，希臘語的字詞錯誤率（WER）從 35% 降至 24%，保加利亞語則從 22% 降至 15%，顯示出該模型在經過少量微調後，具備顯著的效能提升空間。

儘管該模型支援多國語言，NVIDIA 仍建議若應用場景僅限於英語，使用其專屬的英語模型效果更佳。此外，目前該模型的生產級 NIM（NVIDIA Inference Microservice）與 gRPC 串流功能已公開預告，但尚未正式發布。

NVIDIA 發表 Nemotron 3.5 ASR：單一模型即時轉錄 40 種語言，挑戰語音 AI 部署效率

編輯核心觀點

打破模型堆疊困境：單一檢查點涵蓋 40 種語言

Cache-Aware 架構：從重複運算到高效快取

推論時的靈活性：延遲與精準度的平衡

開放權重帶來的微調潛力

資料來源

相關文章

AI 代理人走出雲端！Moonshot AI 推 Kimi Work，讓 300 個子代理人直接在你的電腦上工作

Apple AI 戰略大轉彎：第三代基礎模型 AFM 3 聯手 Google 雲端，打造隱私與效能平衡術

月之暗面推出 Kimi Work：讓 300 個 AI 代理駐守電腦，直接接管你的瀏覽器與檔案

法國 AI 獨角獸 Mistral AI 擬募資 30 億歐元，估值上看 200 億歐元挑戰 OpenAI