返回首頁

AI 幻覺解方不是更聰明的大腦?新創 Probably 獲 a16z 投資,主打「弱模型」結合驗證機制

編輯核心觀點

  • 新創公司 Probably 獲得 900 萬美元種子輪融資,主張透過「弱模型」搭配確定性驗證機制來解決 AI 幻覺問題。
  • 該技術利用本地端運行的輕量化模型,並透過「資料科學機械裝甲」進行輸出檢查,確保數據準確性。
  • 此方案不僅能降低對大型資料中心的依賴以節省成本,還能透過本地運行 DuckDB 確保原始數據隱私。
AI 幻覺解方不是更聰明的大腦?新創 Probably 獲 a16z 投資,主打「弱模型」結合驗證機制

AI 幻覺的解方:更強的腦,還是更好的約束?

當前 AI 產業多半致力於透過開發更龐大、更聰明的模型來解決「幻覺(Hallucinations)」問題,但新創公司 Probably 卻選擇了截然不同的路徑。該公司近期獲得 900 萬美元種子輪融資,由 Andreessen Horowitz(a16z)與 Accel 共同領投,Tokyo Black 與 Vermilion Cliffs Ventures 跟投。Probably 的目標是達到傳統軟體視為理所當然、但大型語言模型(LLM)卻難以企及的 99.99% 準確度。

「機械裝甲」取代大腦:Probably 的運作邏輯

Probably 的核心技術在於「減少模型思考」。其首款產品是一個本地端的「可驗證資料代理(verifiable data agent)」,專門處理複雜數據集中的查詢。創辦人 Peter Elias 將此機制形容為「資料科學機械裝甲(data science mech suit)」

The better your harness engineering is, the weaker the model can be.

具體運作方式為:模型先進行初步回答,接著由一個獨立的確定性驗證器(deterministic validator)對照原始數據進行檢查,若結果不符則予以剔除。模型會針對驗證器進行訓練,確保每個輸出都附帶引用來源與稽核軌跡。Elias 指出,只要將模糊空間縮減到足夠程度,AI 幾乎不需要進行複雜的推理。

成本與隱私的雙重優勢

這種設計帶來了顯著的成本效益。Elias 表示,Probably 使用的模型比當前主流模型「弱四個等級」,輕量到足以在桌機上運行,無需仰賴昂貴的資料中心,大幅削減了 Token 的使用成本。此外,該工具完全在開源資料庫 DuckDB 上本地運行,模型僅能接觸到元數據與統計資訊,原始數據始終保留在用戶設備中,解決了企業對數據隱私的疑慮。

精準導向的應用與局限

這項技術特別適用於會計、醫療等對「精準度」高度敏感的領域,在這些場景中,AI 若給出自信但錯誤的答案將造成嚴重後果。不過,該技術目前仍有其適用範圍限制:驗證器必須要有明確的「客觀事實(ground truth)」可供對照,這也是為何 Probably 先從數據查詢切入,而非開放式寫作。

目前該產品處於 0.1 版本的公開預覽階段,99.99% 的準確度仍是其努力的目標。Elias 認為,大型實驗室之所以未採用此路徑,是因為「模型越需要修正,他們賺的錢就越多」。儘管這番言論帶有競爭意味,但 Probably 在眾多試圖馴服 AI 幻覺的競爭者中,選擇押注小型模型,確實為市場提供了一種不同的技術路徑。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章