返回首頁

告別繁瑣調參!Google 推出 TabFM:讓表格數據也能「零樣本」預測

編輯核心觀點

  • Google Research 發表 TabFM 基礎模型,實現表格數據的零樣本分類與迴歸預測,無需針對特定資料集進行訓練。
  • 該模型採用「情境學習」架構,將整個資料集視為單一提示詞,並結合行與列的注意力機制來處理表格特徵。
  • TabFM 透過數億個合成資料集進行訓練,未來將整合進 Google BigQuery 的 AI.PREDICT 功能中。
告別繁瑣調參!Google 推出 TabFM:讓表格數據也能「零樣本」預測

表格數據處理的典範轉移

在企業數據架構中,表格數據(Tabular Data)始終佔據核心地位,無論是預測客戶流失還是偵測金融詐欺,皆高度依賴結構化數據。過去,數據科學家多仰賴 XGBoost、AdaBoost 或隨機森林等樹狀模型,但這些方法往往伴隨著高昂的時間成本。為了從原始數據中提取可靠訊號,工程師必須投入大量時間進行特徵工程與超參數優化。

Google Research 近期推出的 TabFM,旨在解決上述瓶頸。作為 Google 繼時間序列模型 TimesFM 之後的最新力作,TabFM 將大型語言模型(LLM)中常見的「零樣本(Zero-shot)」邏輯引入表格領域,讓模型在無需更新權重的情況下,透過「情境學習(In-context Learning)」直接對未見過的表格進行預測。

運作機制:結合行與列的注意力機制

與傳統模型需要針對每個資料集重新訓練參數不同,TabFM 將整個資料集視為一個統一的提示詞(Prompt),包含訓練範例與目標測試行。由於表格數據具有二維且無序的特性,TabFM 採用了混合架構來橋接語言模型與表格結構的差異:

  • 交替式行與列注意力(Alternating row and column attention): 模仿 TabPFN 的設計,模型在列(特徵)與行(範例)之間交替進行注意力計算,藉此捕捉複雜的特徵互動與依賴關係。
  • 行壓縮(Row compression): 將每行經過交叉注意力處理後的資訊壓縮為單一稠密向量。
  • 情境學習(In-context learning): 透過 Transformer 對壓縮後的嵌入向量進行處理,大幅降低計算成本,確保在大規模資料集上仍能保持高效預測。

大規模合成數據訓練

由於高品質的工業級表格數據涉及隱私與專有架構,難以公開取得,Google 研究團隊選擇使用「結構化因果模型(SCMs)」動態生成數億個合成資料集進行訓練。這種方法能模擬真實表格中複雜的特徵分佈與關聯,實驗證明該模型能有效泛化至未見過的真實世界數據。

效能表現與應用

在 TabArena 基準測試中,TabFM 在 38 個分類與 13 個迴歸資料集上,表現優於經過深度調參的業界標準監督式演算法。目前 TabFM 已於 Hugging Face 與 GitHub 開放,開發者可透過 Python 進行安裝與部署。Google 也預告,未來將透過 AI.PREDICT SQL 指令,將 TabFM 的能力直接整合進 Google BigQuery 數據倉儲服務中。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章