AI 幻覺解方不是更聰明的大腦？新創 Probably 獲 a16z 投資，主打「弱模型」結合驗證機制

AI 幻覺的解方：更強的腦，還是更好的約束？

當前 AI 產業多半致力於透過開發更龐大、更聰明的模型來解決「幻覺（Hallucinations）」問題，但新創公司 Probably 卻選擇了截然不同的路徑。該公司近期獲得 900 萬美元種子輪融資，由 Andreessen Horowitz（a16z）與 Accel 共同領投，Tokyo Black 與 Vermilion Cliffs Ventures 跟投。Probably 的目標是達到傳統軟體視為理所當然、但大型語言模型（LLM）卻難以企及的 99.99% 準確度。

「機械裝甲」取代大腦：Probably 的運作邏輯

Probably 的核心技術在於「減少模型思考」。其首款產品是一個本地端的「可驗證資料代理（verifiable data agent）」，專門處理複雜數據集中的查詢。創辦人 Peter Elias 將此機制形容為「資料科學機械裝甲（data science mech suit）」。

The better your harness engineering is, the weaker the model can be.

具體運作方式為：模型先進行初步回答，接著由一個獨立的確定性驗證器（deterministic validator）對照原始數據進行檢查，若結果不符則予以剔除。模型會針對驗證器進行訓練，確保每個輸出都附帶引用來源與稽核軌跡。Elias 指出，只要將模糊空間縮減到足夠程度，AI 幾乎不需要進行複雜的推理。

成本與隱私的雙重優勢

這種設計帶來了顯著的成本效益。Elias 表示，Probably 使用的模型比當前主流模型「弱四個等級」，輕量到足以在桌機上運行，無需仰賴昂貴的資料中心，大幅削減了 Token 的使用成本。此外，該工具完全在開源資料庫 DuckDB 上本地運行，模型僅能接觸到元數據與統計資訊，原始數據始終保留在用戶設備中，解決了企業對數據隱私的疑慮。

精準導向的應用與局限

這項技術特別適用於會計、醫療等對「精準度」高度敏感的領域，在這些場景中，AI 若給出自信但錯誤的答案將造成嚴重後果。不過，該技術目前仍有其適用範圍限制：驗證器必須要有明確的「客觀事實（ground truth）」可供對照，這也是為何 Probably 先從數據查詢切入，而非開放式寫作。

目前該產品處於 0.1 版本的公開預覽階段，99.99% 的準確度仍是其努力的目標。Elias 認為，大型實驗室之所以未採用此路徑，是因為「模型越需要修正，他們賺的錢就越多」。儘管這番言論帶有競爭意味，但 Probably 在眾多試圖馴服 AI 幻覺的競爭者中，選擇押注小型模型，確實為市場提供了一種不同的技術路徑。

AI 幻覺解方不是更聰明的大腦？新創 Probably 獲 a16z 投資，主打「弱模型」結合驗證機制

編輯核心觀點

AI 幻覺的解方：更強的腦，還是更好的約束？

「機械裝甲」取代大腦：Probably 的運作邏輯

成本與隱私的雙重優勢

精準導向的應用與局限

資料來源

相關文章

Anthropic 訂閱費太貴？Block 開發的開源 AI 代理 Goose 讓開發者實現「在地化」自由

VLC 開發者轉戰機器人領域：Kyber 獲 500 萬美元融資，要讓「實體 AI」運作更流暢

Liquid AI 推輕量級檢索模型：350M 參數挑戰跨語言搜尋，筆電也能跑高效 RAG

挑戰 AWS 的雲端新勢力：Railway 獲 1 億美元融資，靠「AI 原生」架構讓部署速度快 7 倍