返回首頁

大型模型在金融領域踢鐵板:橋水基金與 Thinking Machines 揭露「微調」才是勝負關鍵

編輯核心觀點

  • 橋水基金與 Thinking Machines Lab 實測發現,通用型 AI 模型在處理專業金融判斷時,準確率難以達到 80% 的部署門檻。
  • 研究指出,GPT 與 Claude 等頂尖模型在面對未公開的內部資料時,表現並不理想,且成本效益隨模型規模擴大而遞減。
  • 透過 Tinker 平台對開源模型進行微調,不僅準確率超越通用模型,營運成本更大幅降低至原先的 1/14。
大型模型在金融領域踢鐵板:橋水基金與 Thinking Machines 揭露「微調」才是勝負關鍵

通用模型在金融判斷上的侷限

投資人每日面對海量的財經新聞、企業申報文件與電子郵件,真正的挑戰不在於閱讀,而在於持續進行細微的判斷。橋水基金(Bridgewater)旗下的 AIA Labs 與由 OpenAI 前技術長 Mira Murati 創立的新創公司 Thinking Machines Lab 合作進行了一項研究,試圖將這種投資日常中的「分類篩選」工作自動化。

研究團隊定義了六項投資人日常任務,例如判斷財經報導與高層主管的關聯性,或是分析央行文件是否暗示利率走向。研究發現,這些對專家而言輕而易舉的判斷,對大型模型(Frontier models)卻極具挑戰。例如,模型難以分辨「川普對格陵蘭的主張」與「川普威脅加徵關稅」兩者在金融重要性上的巨大差異。

測試結果顯示,Gemini、Claude 與 GPT 等模型在基礎提示詞(prompt)下,準確率僅約 50%。即便引入專家撰寫的指令與三級評分系統,準確率也僅提升至 70% 中段,仍未達研究團隊設定的 80% 可信部署門檻。

微調開源模型:成本與準確度的平衡

為了突破瓶頸,研究團隊採用了「微調(fine-tuning)」策略,利用專有資料對開源模型進行訓練。關鍵在於如何獲取高品質的標註資料。團隊並未全數委託外部人員,而是先由模型進行初步標註,僅在模型與原始標註出現分歧時,才交由橋水基金的投資專家進行修正,大幅節省了人力成本。

該團隊使用 Thinking Machines Lab 開發的 Tinker 平台,並以開源模型 Qwen3-235B 為基礎。根據團隊內部評估,微調後的模型準確率達到 84.7%,優於測試中表現最好的通用模型(78.2%),且營運成本降低了近 14 倍。

企業資料隱私與競爭優勢

這項研究揭示了大型 AI 實驗室尚未觸及的盲點:企業內部存在大量未經訓練的專業知識與專有資料。當企業將這些資料交給通用模型廠商時,等於將最核心的競爭優勢曝露在風險之中。

透過 Tinker 等工具進行模型微調,企業能將模型權重、資料與運算資源掌握在自己手中。這不僅是為了提升準確度,更是為了在不依賴外部大型模型供應商的前提下,建立具備高度專業判斷力的 AI 系統。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章