微軟 MAI-Transcribe-1.5 登場:語音轉文字速度提升 5 倍,精準度挑戰業界標竿
編輯核心觀點
- ✦微軟推出 MAI-Transcribe-1.5 語音辨識模型,支援 43 種語言並針對嘈雜環境優化。
- ✦該模型在處理長音訊時速度提升達 5.7 倍,一小時錄音可在 15 秒內完成轉錄。
- ✦新增關鍵字偏置(Keyword Biasing)功能,能顯著降低專業領域術語的錯誤率。

微軟 AI 語音辨識再升級
微軟 AI 近期發布了第二代語音轉文字模型 MAI-Transcribe-1.5。這款模型並非基於第三方架構,而是由微軟內部自行開發,旨在解決生產環境中處理多語言、多口音及嘈雜環境音訊的轉錄挑戰。目前該模型已整合至 Copilot、Teams、GitHub 及 Dynamics 365 Contact Centre 等產品線,並同步於 Azure AI Foundry 平台上架。
效能與精準度的雙重提升
在精準度評測上,MAI-Transcribe-1.5 在 FLEURS 多語言基準測試中表現優異,並在 Artificial Analysis 排行榜上取得 2.4% 的字詞錯誤率(WER)。相較於前代版本,語言支援範圍從 25 種擴展至 43 種,新增語言包括孟加拉語、泰盧固語等 10 種南亞語言,以及烏克蘭語、希臘語等 8 種歐洲語言。
速度表現則是 MAI-Transcribe-1.5 的另一大亮點。根據微軟數據,該模型在處理長音訊時,速度比 Gemini 3.1、Scribe v2 及 GPT-4o-Transcribe 快上 5 倍,相較於第一代 MAI-Transcribe-1,長篇推論速度更提升了 5.7 倍。
關鍵字偏置:解決領域術語痛點
針對企業用戶常遇到的專業術語(如人名、產品名、醫療術語)辨識困難,MAI-Transcribe-1.5 導入了「關鍵字偏置」(Entity Biasing)功能。用戶可提供最多 200 個關鍵字清單,模型會依據上下文判斷是否套用,而非盲目強制匹配。微軟指出,此功能在 FLEURS 測試中能將錯誤率降低 30%。例如,在未啟用偏置前,模型可能將人名誤判為一般單字,啟用後則能精確還原如「Shaun」、「Aoife」等名稱。
現階段的優勢與限制
儘管 MAI-Transcribe-1.5 在多語言處理與長音訊轉錄上展現了強大競爭力,但目前仍存在幾項技術限制:
- 缺乏說話者識別(Diarization):目前無法自動區分不同發言者。
- 無原生串流 API:暫不支援即時語音轉錄。
- 第三方驗證:部分效能數據由微軟內部提供,且在 Artificial Analysis 排行榜上目前位居第三。
該模型具備自動語言識別功能,無需手動設定即可偵測輸入語言,適用於影片字幕製作、會議紀錄、客服分析及語音代理人等生產場景。



