大型模型在金融領域踢鐵板：橋水基金與 Thinking Machines 揭露「微調」才是勝負關鍵

通用模型在金融判斷上的侷限

投資人每日面對海量的財經新聞、企業申報文件與電子郵件，真正的挑戰不在於閱讀，而在於持續進行細微的判斷。橋水基金（Bridgewater）旗下的 AIA Labs 與由 OpenAI 前技術長 Mira Murati 創立的新創公司 Thinking Machines Lab 合作進行了一項研究，試圖將這種投資日常中的「分類篩選」工作自動化。

研究團隊定義了六項投資人日常任務，例如判斷財經報導與高層主管的關聯性，或是分析央行文件是否暗示利率走向。研究發現，這些對專家而言輕而易舉的判斷，對大型模型（Frontier models）卻極具挑戰。例如，模型難以分辨「川普對格陵蘭的主張」與「川普威脅加徵關稅」兩者在金融重要性上的巨大差異。

測試結果顯示，Gemini、Claude 與 GPT 等模型在基礎提示詞（prompt）下，準確率僅約 50%。即便引入專家撰寫的指令與三級評分系統，準確率也僅提升至 70% 中段，仍未達研究團隊設定的 80% 可信部署門檻。

微調開源模型：成本與準確度的平衡

為了突破瓶頸，研究團隊採用了「微調（fine-tuning）」策略，利用專有資料對開源模型進行訓練。關鍵在於如何獲取高品質的標註資料。團隊並未全數委託外部人員，而是先由模型進行初步標註，僅在模型與原始標註出現分歧時，才交由橋水基金的投資專家進行修正，大幅節省了人力成本。

該團隊使用 Thinking Machines Lab 開發的 Tinker 平台，並以開源模型 Qwen3-235B 為基礎。根據團隊內部評估，微調後的模型準確率達到 84.7%，優於測試中表現最好的通用模型（78.2%），且營運成本降低了近 14 倍。

企業資料隱私與競爭優勢

這項研究揭示了大型 AI 實驗室尚未觸及的盲點：企業內部存在大量未經訓練的專業知識與專有資料。當企業將這些資料交給通用模型廠商時，等於將最核心的競爭優勢曝露在風險之中。

透過 Tinker 等工具進行模型微調，企業能將模型權重、資料與運算資源掌握在自己手中。這不僅是為了提升準確度，更是為了在不依賴外部大型模型供應商的前提下，建立具備高度專業判斷力的 AI 系統。

大型模型在金融領域踢鐵板：橋水基金與 Thinking Machines 揭露「微調」才是勝負關鍵

編輯核心觀點

通用模型在金融判斷上的侷限

微調開源模型：成本與準確度的平衡

企業資料隱私與競爭優勢

資料來源

相關文章

估值飆破 80 億美元：Together AI 如何靠開源算力平台，在 GPU 荒中殺出重圍？

美團「隱形」AI 模型 LongCat-2.0 揭曉：挑戰 GPT-5.5 的高性價比算力黑馬

Claude Fable 5 重返市場：Anthropic 強化資安防護，並推動 AI 越獄標準化

AI 界的比特幣時刻：開源人工智慧正重演 2014 年的監管抗爭史