返回首頁

NVIDIA 發表 Nemotron 3.5 ASR:單一模型即時轉錄 40 種語言,挑戰語音 AI 部署效率

編輯核心觀點

  • NVIDIA 推出 6 億參數的 Nemotron 3.5 ASR 模型,透過單一檢查點即可即時轉錄 40 種語言,無需針對不同語言切換模型。
  • 採用 Cache-Aware FastConformer-RNNT 架構,透過快取機制避免重複運算,在 H100 晶片上實現比傳統緩衝串流高出 17 倍的併發處理能力。
  • 支援推論時動態調整延遲(80ms 至 1.12s),且具備原生標點符號與大小寫自動修正功能,並以 OpenMDW-1.1 授權開放權重供開發者自建部署。
NVIDIA 發表 Nemotron 3.5 ASR:單一模型即時轉錄 40 種語言,挑戰語音 AI 部署效率

打破模型堆疊困境:單一檢查點涵蓋 40 種語言

NVIDIA Nemotron 語音團隊近日發布了 Nemotron 3.5 ASR,這是一款擁有 6 億參數的串流式自動語音辨識(ASR)模型。該模型最大的技術突破在於,透過提示詞(Prompt-based)的語言識別調節機制,讓單一檢查點(Checkpoint)就能處理包含英語、西班牙語、德語、法語、阿拉伯語、日語、韓語、中文及印地語等 40 種語言與地區方言,徹底解決了過去需針對不同語言部署多個模型或頻繁切換的繁瑣流程。

Cache-Aware 架構:從重複運算到高效快取

Nemotron 3.5 ASR 的核心架構由 24 層的 Cache-Aware FastConformer 編碼器與 RNNT 解碼器組成。傳統的串流式語音辨識常因重複處理重疊的音訊視窗而導致運算冗餘與延遲,而 NVIDIA 的設計則將編碼器的自我注意力(Self-attention)與卷積狀態進行快取。

每個音訊幀僅需處理一次,且無重疊運算,這使得運算負載與端到端延遲大幅下降,且不會犧牲辨識準確度。

根據 NVIDIA 實測,在 H100 GPU 上,該架構的併發處理能力達到傳統緩衝串流方法的 17 倍。

推論時的靈活性:延遲與精準度的平衡

開發者無需重新訓練模型,即可透過 att_context_size 參數在推論時動態調整延遲與準確度的平衡。該設定對應的區塊大小涵蓋 80ms、160ms、320ms、560ms 與 1.12s。例如,設定為 80ms 可實現超低延遲的即時轉錄,而 1.12s 則能提供更高的辨識精準度。

開放權重帶來的微調潛力

由於採用 OpenMDW-1.1 授權並開放權重,使用者可針對特定領域、口音或語言進行微調。NVIDIA 以希臘語與保加利亞語為例,透過在 FLEURS 資料集上的測試,在 80ms 的低延遲模式下,希臘語的字詞錯誤率(WER)從 35% 降至 24%,保加利亞語則從 22% 降至 15%,顯示出該模型在經過少量微調後,具備顯著的效能提升空間。

儘管該模型支援多國語言,NVIDIA 仍建議若應用場景僅限於英語,使用其專屬的英語模型效果更佳。此外,目前該模型的生產級 NIM(NVIDIA Inference Microservice)與 gRPC 串流功能已公開預告,但尚未正式發布。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章