AI 幻覺難纏!新創 Probably 獲 900 萬美元種子輪融資,打造更嚴謹的 AI 驗證機制
編輯核心觀點
- ✦大型語言模型(LLM)的「幻覺」問題,即 AI 生成不實資訊的現象,至今仍是難解的挑戰。
- ✦新創公司 Probably 獲得 Andreessen Horowitz 領投的 900 萬美元種子輪融資,旨在建立更可靠的 AI 驗證系統,目標是達到 99.99% 的準確度。
- ✦該公司首款產品為資料科學工具,透過「資料科學機甲戰士」般的驗證系統,確保 AI 回答的準確性,並能運行於較小型的 AI 模型,大幅降低運算成本。

隨著大型語言模型(LLM)的威力日益強大,其產生的「幻覺」(hallucinations)——也就是 AI 生成不實或捏造資訊的現象——卻始終難以根除。即使是最先進的模型,也時常會出現錯誤,儘管業界已在摸索偵測這些錯誤的方法,但最佳解決方案仍未明朗。
在此背景下,新創公司 Probably 應運而生,並成功獲得知名創投公司 Andreessen Horowitz 領投的 900 萬美元種子輪融資。Probably 的目標是建立一套更嚴謹的機制,來捕捉並防止 AI 的錯誤。
Probably 創辦人 Peter Elias 表示,公司的核心目標是確保 AI 生成的內容在觸及使用者之前,就能杜絕幻覺和單純的事實錯誤。他們期望達成如同確定性系統(deterministic systems)般的 99.99% 高準確度,這對 AI 而言是極具挑戰性的目標。要讓 LLM 達到如此精準的水平,勢必得重新思考 AI 工程的基礎假設。
首款產品:具備審核軌跡的資料科學工具
Probably 的首款產品是一款資料科學工具,旨在從複雜的數據集中快速產出答案。與現今許多 AI 工具的趨勢一致,該工具提供的每個結果都附帶了引用來源以及開發過程的審核軌跡(audit trail)。
然而,要防止錯誤潛入這些摘要,需要一套精密的「駕馭系統」(harness system)。Elias 將其形容為「資料科學機甲戰士」(data science mech suit)。在這個系統中,LLM 的初步回答會先經過一個確定性驗證器(deterministic validator system)的檢查。若結果與原始數據集不符,驗證器便會將其駁回。據公司表示,LLM 已經過針對該驗證器的訓練,且整個系統都經過優化,以追求快速且準確的回答。
「我們從開發過程中學到的是,你的駕馭工程做得越好,模型本身就可以越『弱』。」Elias 說,「如果你能足夠精煉上下文,模型就不必那麼費力就能做對事情。基本上,這就是一個減少歧義的過程。」
這種方法讓 Probably 的資料科學工具能夠運行於顯著較小的 AI 模型之上。Elias 指出,目前版本使用的是比最前沿模型「弱四個級別」的模型。這意味著該工具可以在本地硬體(例如桌上型電腦,而非大型數據中心)上運行,大幅降低了與 AI 使用相關的龐大代幣(token)成本。
成本與應用潛力
在代幣成本不斷攀升、許多客戶重新評估 AI 預算的當下,Probably 的解決方案無疑是一項備受歡迎的創新。Elias 的構想也不僅限於資料科學領域,他認為相同的引擎可以擴展應用於會計或醫療服務等「任何對精確度敏感的使用案例」(any precision-sensitive use case)。
「我認為大型 AI 實驗室甚至沒有嘗試過做這件事,這點非常有趣。」Elias 說,「他們的動機並不在於此,因為你越常需要修正模型,他們就賺越多錢。」


