微軟 MAI-Transcribe-1.5 登場：語音轉文字速度提升 5 倍，精準度挑戰業界標竿

微軟 AI 語音辨識再升級

微軟 AI 近期發布了第二代語音轉文字模型 MAI-Transcribe-1.5。這款模型並非基於第三方架構，而是由微軟內部自行開發，旨在解決生產環境中處理多語言、多口音及嘈雜環境音訊的轉錄挑戰。目前該模型已整合至 Copilot、Teams、GitHub 及 Dynamics 365 Contact Centre 等產品線，並同步於 Azure AI Foundry 平台上架。

效能與精準度的雙重提升

在精準度評測上，MAI-Transcribe-1.5 在 FLEURS 多語言基準測試中表現優異，並在 Artificial Analysis 排行榜上取得 2.4% 的字詞錯誤率（WER）。相較於前代版本，語言支援範圍從 25 種擴展至 43 種，新增語言包括孟加拉語、泰盧固語等 10 種南亞語言，以及烏克蘭語、希臘語等 8 種歐洲語言。

速度表現則是 MAI-Transcribe-1.5 的另一大亮點。根據微軟數據，該模型在處理長音訊時，速度比 Gemini 3.1、Scribe v2 及 GPT-4o-Transcribe 快上 5 倍，相較於第一代 MAI-Transcribe-1，長篇推論速度更提升了 5.7 倍。

關鍵字偏置：解決領域術語痛點

針對企業用戶常遇到的專業術語（如人名、產品名、醫療術語）辨識困難，MAI-Transcribe-1.5 導入了「關鍵字偏置」（Entity Biasing）功能。用戶可提供最多 200 個關鍵字清單，模型會依據上下文判斷是否套用，而非盲目強制匹配。微軟指出，此功能在 FLEURS 測試中能將錯誤率降低 30%。例如，在未啟用偏置前，模型可能將人名誤判為一般單字，啟用後則能精確還原如「Shaun」、「Aoife」等名稱。