Google Gemini-SQL2 突破資料庫查詢瓶頸，BIRD 榜單精準度衝上 80.04%

主打「可執行」的 SQL 生成能力

Google Research 近期於 X（前身為 Twitter）正式發表 Gemini-SQL2，這項技術並非獨立的基礎模型，而是基於 Gemini 3.1 Pro 打造的文字轉 SQL（Text-to-SQL）功能。Google 強調，由於商業環境中的資料細微差別與複雜背景，將自然語言轉換為精準 SQL 語法向來極具挑戰，而 Gemini-SQL2 的出現旨在解決此一痛點。

BIRD 基準測試表現

在衡量文字轉 SQL 能力的業界標準 BIRD（BIg Bench for LaRge-scale Database Grounded Text-to-SQL Evaluation）基準測試中，Gemini-SQL2 在「單一模型（Single Model）」類別取得了 80.04% 的執行準確率（Execution Accuracy, EX）。

根據 BIRD 基準測試，Gemini-SQL2 的 SQL 不僅看起來正確，還能成功執行並返回與標準答案一致的結果。

BIRD 測試集包含 12,751 組問題與 SQL 對應，涵蓋 37 個專業領域的 95 個資料庫。與舊有的 Spider 基準不同，BIRD 要求模型具備處理髒資料（Dirty values）與外部知識連結的能力。雖然 Gemini-SQL2 表現優異，但與人類在該測試中 92.96% 的表現相比，仍有 12.92 個百分點的差距。

應用場景與產業界限

Google 指出，這項技術未來有望整合至 BigQuery Studio、AlloyDB AI 與 Cloud SQL Studio 等資料服務中。潛在應用包括：

自助式分析：協助營收經理透過自然語言查詢如「90 天內流失客戶的區域性經常性收入」，系統需處理複雜的 Join、視窗函數與日期運算。
資料工程輔助：開發人員可將英文需求轉換為 BigQuery 轉換語法，再進行人工審閱。

然而，Google 也提醒，目前 80% 的準確率意味著每五次查詢中仍可能出現一次錯誤。因此，在 SaaS 團隊引入「詢問你的資料（Ask your data）」功能時，人工審核機制仍是不可或缺的環節。

開發者實作建議

目前 Google 尚未公開 Gemini-SQL2 的模型 ID 或 API 接口。開發者現階段可透過 google-genai SDK 搭配 Gemini 3.1 Pro 進行測試。針對生產環境，Google 建議導入「執行驗證（Execution Verification）」機制：先執行生成的 SQL，若發生錯誤則將錯誤訊息回傳給模型進行修正，此迴圈正是 BIRD 基準測試評分的核心邏輯。

Google Gemini-SQL2 突破資料庫查詢瓶頸，BIRD 榜單精準度衝上 80.04%

編輯核心觀點

主打「可執行」的 SQL 生成能力

BIRD 基準測試表現

應用場景與產業界限

開發者實作建議

資料來源

相關文章

告別繁瑣選單：Google TV 導入 Gemini，用語音指令就能自動調校畫質與音效

Google 對抗 AI 詐騙集團：首度提告中國犯罪組織並推動立法防堵

AI 代理人走出雲端！Moonshot AI 推 Kimi Work，讓 300 個子代理人直接在你的電腦上工作

AI 淪為詐騙幫兇：Google 起訴中國犯罪集團，揭露 Gemini 助攻的網釣惡夢