告別繁瑣調參！Google 推出 TabFM：讓表格數據也能「零樣本」預測

表格數據處理的典範轉移

在企業數據架構中，表格數據（Tabular Data）始終佔據核心地位，無論是預測客戶流失還是偵測金融詐欺，皆高度依賴結構化數據。過去，數據科學家多仰賴 XGBoost、AdaBoost 或隨機森林等樹狀模型，但這些方法往往伴隨著高昂的時間成本。為了從原始數據中提取可靠訊號，工程師必須投入大量時間進行特徵工程與超參數優化。

Google Research 近期推出的 TabFM，旨在解決上述瓶頸。作為 Google 繼時間序列模型 TimesFM 之後的最新力作，TabFM 將大型語言模型（LLM）中常見的「零樣本（Zero-shot）」邏輯引入表格領域，讓模型在無需更新權重的情況下，透過「情境學習（In-context Learning）」直接對未見過的表格進行預測。

運作機制：結合行與列的注意力機制

與傳統模型需要針對每個資料集重新訓練參數不同，TabFM 將整個資料集視為一個統一的提示詞（Prompt），包含訓練範例與目標測試行。由於表格數據具有二維且無序的特性，TabFM 採用了混合架構來橋接語言模型與表格結構的差異：

交替式行與列注意力（Alternating row and column attention）： 模仿 TabPFN 的設計，模型在列（特徵）與行（範例）之間交替進行注意力計算，藉此捕捉複雜的特徵互動與依賴關係。
行壓縮（Row compression）： 將每行經過交叉注意力處理後的資訊壓縮為單一稠密向量。
情境學習（In-context learning）： 透過 Transformer 對壓縮後的嵌入向量進行處理，大幅降低計算成本，確保在大規模資料集上仍能保持高效預測。

大規模合成數據訓練

由於高品質的工業級表格數據涉及隱私與專有架構，難以公開取得，Google 研究團隊選擇使用「結構化因果模型（SCMs）」動態生成數億個合成資料集進行訓練。這種方法能模擬真實表格中複雜的特徵分佈與關聯，實驗證明該模型能有效泛化至未見過的真實世界數據。

效能表現與應用

在 TabArena 基準測試中，TabFM 在 38 個分類與 13 個迴歸資料集上，表現優於經過深度調參的業界標準監督式演算法。目前 TabFM 已於 Hugging Face 與 GitHub 開放，開發者可透過 Python 進行安裝與部署。Google 也預告，未來將透過 AI.PREDICT SQL 指令，將 TabFM 的能力直接整合進 Google BigQuery 數據倉儲服務中。

告別繁瑣調參！Google 推出 TabFM：讓表格數據也能「零樣本」預測

編輯核心觀點

表格數據處理的典範轉移

運作機制：結合行與列的注意力機制

大規模合成數據訓練

效能表現與應用

資料來源

相關文章

從撲克桌到華爾街：DeepMind 前研究員創立的 AI 實驗室 EquiLibre 估值衝上 5 億美元

NVIDIA 發表 SpatialClaw：讓 AI 像工程師一樣「寫程式」解決 3D 空間推理難題

英特爾谷底翻身：從川普概念股到 AI 推論架構的核心角色

AI 進化論新篇章：MIT 發表 SEAL 架構，讓語言模型學會「自我編輯」與參數更新