Google 發表 Gemini 3.5 Live Translate：即時語音翻譯跨越 70 種語言，強調保留說話者語氣

即時語音翻譯新進展：Gemini 3.5 Live Translate

Google 正式發布 Gemini 3.5 Live Translate，這是一款專為即時語音對語音翻譯設計的 AI 模型。不同於以往需要特定硬體（如特定手機或耳機）的限制，此次更新將翻譯功能擴展至更廣泛的生態系中，目標是實現更低延遲、更自然的跨語言溝通。

根據 Google 的說明，該模型不僅能自動偵測語言，還能保留說話者的語氣、語速與音調，使其聽起來更接近真實人聲，而非傳統的機械音。此外，該模型具備連續處理能力，能過濾環境噪音，並在說話者發言後僅需幾秒鐘即可跟上對話節奏。

跨平台應用與開發者支援

Gemini 3.5 Live Translate 的應用範圍涵蓋了個人用戶與企業端：

Google Meet：語言支援從原本的 5 種大幅提升至超過 70 種，提供超過 2,000 種語言組合。
Google 翻譯 App：Android 與 iOS 用戶皆可使用。
開發者工具：透過 Gemini Live API 與 Google AI Studio 提供公開預覽，開發者無需手動配置設定即可處理多語言輸入。

目前，叫車服務 Grab 正針對司機與乘客間的溝通場景進行測試。為了確保內容安全性，所有由該模型生成的音訊皆會嵌入 SynthID 不可見浮水印。

技術背景與未來展望

Gemini 3.5 Live Translate 屬於 Google I/O 大會上發布的 3.5 系列模型家族。雖然目前已釋出 Flash 版本，但市場預期 Pro 版本將在未來幾週內推出。Google 強調，此模型是其多年來機器學習實驗的成果，旨在解決即時翻譯中的延遲問題，並透過持續性的語音處理技術，讓跨語言對話能如同正常交談般流暢。

Google 發表 Gemini 3.5 Live Translate：即時語音翻譯跨越 70 種語言，強調保留說話者語氣

編輯核心觀點

即時語音翻譯新進展：Gemini 3.5 Live Translate

跨平台應用與開發者支援

技術背景與未來展望

資料來源

相關文章

蘋果相機主管談 AI 攝影：不是為了 AI 而 AI，而是賦予用戶「超能力」

告別繁瑣選單：Google TV 導入 Gemini，用語音指令就能自動調校畫質與音效

Google Gemini-SQL2 突破資料庫查詢瓶頸，BIRD 榜單精準度衝上 80.04%

蘋果 iOS 27 清理功能「AI 幻覺」？實測：模糊人臉竟憑空創造新臉孔，隱私保護恐失靈