返回首頁

Google 發表 Gemini 3.5 Live Translate:即時語音翻譯跨越 70 種語言,強調保留說話者語氣

編輯核心觀點

  • Google 推出 Gemini 3.5 Live Translate 模型,支援超過 70 種語言的即時語音對語音翻譯。
  • 該模型具備自動語言偵測功能,並能同步處理語音流,無需等待句子結束即可進行翻譯。
  • 目前已開放開發者透過 API 使用,並整合至 Google Meet 與翻譯 App,同時導入 SynthID 浮水印技術。
Google 發表 Gemini 3.5 Live Translate:即時語音翻譯跨越 70 種語言,強調保留說話者語氣

即時語音翻譯新進展:Gemini 3.5 Live Translate

Google 正式發布 Gemini 3.5 Live Translate,這是一款專為即時語音對語音翻譯設計的 AI 模型。不同於以往需要特定硬體(如特定手機或耳機)的限制,此次更新將翻譯功能擴展至更廣泛的生態系中,目標是實現更低延遲、更自然的跨語言溝通。

根據 Google 的說明,該模型不僅能自動偵測語言,還能保留說話者的語氣、語速與音調,使其聽起來更接近真實人聲,而非傳統的機械音。此外,該模型具備連續處理能力,能過濾環境噪音,並在說話者發言後僅需幾秒鐘即可跟上對話節奏。

跨平台應用與開發者支援

Gemini 3.5 Live Translate 的應用範圍涵蓋了個人用戶與企業端:

  • Google Meet:語言支援從原本的 5 種大幅提升至超過 70 種,提供超過 2,000 種語言組合。
  • Google 翻譯 App:Android 與 iOS 用戶皆可使用。
  • 開發者工具:透過 Gemini Live API 與 Google AI Studio 提供公開預覽,開發者無需手動配置設定即可處理多語言輸入。

目前,叫車服務 Grab 正針對司機與乘客間的溝通場景進行測試。為了確保內容安全性,所有由該模型生成的音訊皆會嵌入 SynthID 不可見浮水印。

技術背景與未來展望

Gemini 3.5 Live Translate 屬於 Google I/O 大會上發布的 3.5 系列模型家族。雖然目前已釋出 Flash 版本,但市場預期 Pro 版本將在未來幾週內推出。Google 強調,此模型是其多年來機器學習實驗的成果,旨在解決即時翻譯中的延遲問題,並透過持續性的語音處理技術,讓跨語言對話能如同正常交談般流暢。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章