返回首頁

Google 發表 Gemini 3.5 Live Translate:打破對話輪替限制,實現 70 種語言同步口譯

編輯核心觀點

  • Google 推出 Gemini 3.5 Live Translate 模型,能即時將語音轉換為另一種語言,並保留說話者的音調與語氣。
  • 該模型採用連續串流處理技術,無需等待語句結束即可開始翻譯,將延遲控制在數秒內。
  • 此技術將整合至 Google Meet、Translate App 及 Live API,支援超過 70 種語言的即時雙向翻譯。
Google 發表 Gemini 3.5 Live Translate:打破對話輪替限制,實現 70 種語言同步口譯

突破對話輪替,實現「連續式」即時翻譯

Google 近日發表了最新的語音模型 Gemini 3.5 Live Translate。與過去常見的「輪替式(turn-by-turn)」翻譯系統不同,該模型採用連續串流(continuous stream)處理機制,能在說話者發言的同時進行翻譯,無需等待對方說完句子。這種設計在「獲取語境」與「即時輸出」之間取得平衡,確保翻譯結果能與說話者的節奏保持同步,僅有數秒的延遲。

該模型具備自動語言偵測功能,支援超過 70 種語言,並能完整保留說話者的語調、語速與音高。為了確保低延遲的表現,Gemini 3.5 Live Translate 專注於純語音處理,不支援文字輸入,也不具備工具呼叫或系統指令功能,確保其作為「翻譯管道」的專一性。

開發者與企業應用場景

Google 已將此模型開放給開發者透過 Gemini Live API 與 Google AI Studio 進行預覽。開發者可透過 translationConfig 區塊設定目標語言(使用 BCP-47 標準代碼)。在技術規格上,輸入端要求 16kHz 的單聲道 16-bit PCM 原始音訊,輸出端則為 24kHz。目前,包括 Agora、Fishjam、LiveKit、Pipecat 與 Vision Agents 等平台已將此 API 整合至其即時媒體架構中。

在商業應用方面,Grab 正測試該模型以優化司機與乘客間的溝通;CJ ENM 等企業也對其翻譯準確度與低延遲表現給予正面回饋。此外,所有生成的語音輸出皆會嵌入 SynthID 水印,以利於辨識內容來源。

Google Meet 與 Translate 的升級

Google 正在將此技術導入旗下核心產品:

  • Google Meet: 本月起針對部分 Workspace 企業客戶開放私人預覽。升級後,會議中的語言組合將從原本僅限英語的雙向翻譯,大幅擴展至 2000 多種語言組合。
  • Google Translate App: 支援連接耳機使用,並新增 Android 專屬的「聆聽模式」,使用者可將手機貼近耳朵,如同接聽電話般接收即時翻譯,確保隱私。

此模型目前以 gemini-3.5-live-translate-preview 的名稱提供,作為專門的翻譯管道,而非一般的對話助理。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章