返回首頁

Google Gemini-SQL2 突破資料庫查詢瓶頸,BIRD 榜單精準度衝上 80.04%

編輯核心觀點

  • Google 發表基於 Gemini 3.1 Pro 的 Gemini-SQL2 技術,在 BIRD 基準測試中達到 80.04% 的執行準確率。
  • 該系統核心在於產生「可直接執行」的 SQL 語法,而非僅是語意正確的模擬程式碼。
  • 儘管效能領先業界,Google 尚未公布 API 規格或具體產品整合時程,目前仍建議企業在應用時維持人工審核機制。
Google Gemini-SQL2 突破資料庫查詢瓶頸,BIRD 榜單精準度衝上 80.04%

主打「可執行」的 SQL 生成能力

Google Research 近期於 X(前身為 Twitter)正式發表 Gemini-SQL2,這項技術並非獨立的基礎模型,而是基於 Gemini 3.1 Pro 打造的文字轉 SQL(Text-to-SQL)功能。Google 強調,由於商業環境中的資料細微差別與複雜背景,將自然語言轉換為精準 SQL 語法向來極具挑戰,而 Gemini-SQL2 的出現旨在解決此一痛點。

BIRD 基準測試表現

在衡量文字轉 SQL 能力的業界標準 BIRD(BIg Bench for LaRge-scale Database Grounded Text-to-SQL Evaluation)基準測試中,Gemini-SQL2 在「單一模型(Single Model)」類別取得了 80.04% 的執行準確率(Execution Accuracy, EX)。

根據 BIRD 基準測試,Gemini-SQL2 的 SQL 不僅看起來正確,還能成功執行並返回與標準答案一致的結果。

BIRD 測試集包含 12,751 組問題與 SQL 對應,涵蓋 37 個專業領域的 95 個資料庫。與舊有的 Spider 基準不同,BIRD 要求模型具備處理髒資料(Dirty values)與外部知識連結的能力。雖然 Gemini-SQL2 表現優異,但與人類在該測試中 92.96% 的表現相比,仍有 12.92 個百分點的差距。

應用場景與產業界限

Google 指出,這項技術未來有望整合至 BigQuery Studio、AlloyDB AI 與 Cloud SQL Studio 等資料服務中。潛在應用包括:

  • 自助式分析:協助營收經理透過自然語言查詢如「90 天內流失客戶的區域性經常性收入」,系統需處理複雜的 Join、視窗函數與日期運算。
  • 資料工程輔助:開發人員可將英文需求轉換為 BigQuery 轉換語法,再進行人工審閱。

然而,Google 也提醒,目前 80% 的準確率意味著每五次查詢中仍可能出現一次錯誤。因此,在 SaaS 團隊引入「詢問你的資料(Ask your data)」功能時,人工審核機制仍是不可或缺的環節

開發者實作建議

目前 Google 尚未公開 Gemini-SQL2 的模型 ID 或 API 接口。開發者現階段可透過 google-genai SDK 搭配 Gemini 3.1 Pro 進行測試。針對生產環境,Google 建議導入「執行驗證(Execution Verification)」機制:先執行生成的 SQL,若發生錯誤則將錯誤訊息回傳給模型進行修正,此迴圈正是 BIRD 基準測試評分的核心邏輯。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章