Google 發表 Gemini 3.5 Live Translate：打破對話輪替限制，實現 70 種語言同步口譯

突破對話輪替，實現「連續式」即時翻譯

Google 近日發表了最新的語音模型 Gemini 3.5 Live Translate。與過去常見的「輪替式（turn-by-turn）」翻譯系統不同，該模型採用連續串流（continuous stream）處理機制，能在說話者發言的同時進行翻譯，無需等待對方說完句子。這種設計在「獲取語境」與「即時輸出」之間取得平衡，確保翻譯結果能與說話者的節奏保持同步，僅有數秒的延遲。

該模型具備自動語言偵測功能，支援超過 70 種語言，並能完整保留說話者的語調、語速與音高。為了確保低延遲的表現，Gemini 3.5 Live Translate 專注於純語音處理，不支援文字輸入，也不具備工具呼叫或系統指令功能，確保其作為「翻譯管道」的專一性。

開發者與企業應用場景

Google 已將此模型開放給開發者透過 Gemini Live API 與 Google AI Studio 進行預覽。開發者可透過 translationConfig 區塊設定目標語言（使用 BCP-47 標準代碼）。在技術規格上，輸入端要求 16kHz 的單聲道 16-bit PCM 原始音訊，輸出端則為 24kHz。目前，包括 Agora、Fishjam、LiveKit、Pipecat 與 Vision Agents 等平台已將此 API 整合至其即時媒體架構中。

在商業應用方面，Grab 正測試該模型以優化司機與乘客間的溝通；CJ ENM 等企業也對其翻譯準確度與低延遲表現給予正面回饋。此外，所有生成的語音輸出皆會嵌入 SynthID 水印，以利於辨識內容來源。

Google Meet 與 Translate 的升級

Google 正在將此技術導入旗下核心產品：

Google Meet： 本月起針對部分 Workspace 企業客戶開放私人預覽。升級後，會議中的語言組合將從原本僅限英語的雙向翻譯，大幅擴展至 2000 多種語言組合。
Google Translate App： 支援連接耳機使用，並新增 Android 專屬的「聆聽模式」，使用者可將手機貼近耳朵，如同接聽電話般接收即時翻譯，確保隱私。

此模型目前以 gemini-3.5-live-translate-preview 的名稱提供，作為專門的翻譯管道，而非一般的對話助理。

Google 發表 Gemini 3.5 Live Translate：打破對話輪替限制，實現 70 種語言同步口譯

編輯核心觀點

突破對話輪替，實現「連續式」即時翻譯

開發者與企業應用場景

Google Meet 與 Translate 的升級

資料來源

相關文章

Google Gemini-SQL2 突破資料庫查詢瓶頸，BIRD 榜單精準度衝上 80.04%

告別繁瑣選單：Google TV 導入 Gemini，用語音指令就能自動調校畫質與音效

Apple AI 戰略大轉彎：第三代基礎模型 AFM 3 聯手 Google 雲端，打造隱私與效能平衡術

蘋果相機主管談 AI 攝影：不是為了 AI 而 AI，而是賦予用戶「超能力」