AI 幻覺難纏！新創 Probably 獲 900 萬美元種子輪融資，打造更嚴謹的 AI 驗證機制

隨著大型語言模型（LLM）的威力日益強大，其產生的「幻覺」（hallucinations）——也就是 AI 生成不實或捏造資訊的現象——卻始終難以根除。即使是最先進的模型，也時常會出現錯誤，儘管業界已在摸索偵測這些錯誤的方法，但最佳解決方案仍未明朗。

在此背景下，新創公司 Probably 應運而生，並成功獲得知名創投公司 Andreessen Horowitz 領投的 900 萬美元種子輪融資。Probably 的目標是建立一套更嚴謹的機制，來捕捉並防止 AI 的錯誤。

Probably 創辦人 Peter Elias 表示，公司的核心目標是確保 AI 生成的內容在觸及使用者之前，就能杜絕幻覺和單純的事實錯誤。他們期望達成如同確定性系統（deterministic systems）般的 99.99% 高準確度，這對 AI 而言是極具挑戰性的目標。要讓 LLM 達到如此精準的水平，勢必得重新思考 AI 工程的基礎假設。

首款產品：具備審核軌跡的資料科學工具

Probably 的首款產品是一款資料科學工具，旨在從複雜的數據集中快速產出答案。與現今許多 AI 工具的趨勢一致，該工具提供的每個結果都附帶了引用來源以及開發過程的審核軌跡（audit trail）。

然而，要防止錯誤潛入這些摘要，需要一套精密的「駕馭系統」（harness system）。Elias 將其形容為「資料科學機甲戰士」（data science mech suit）。在這個系統中，LLM 的初步回答會先經過一個確定性驗證器（deterministic validator system）的檢查。若結果與原始數據集不符，驗證器便會將其駁回。據公司表示，LLM 已經過針對該驗證器的訓練，且整個系統都經過優化，以追求快速且準確的回答。

「我們從開發過程中學到的是，你的駕馭工程做得越好，模型本身就可以越『弱』。」Elias 說，「如果你能足夠精煉上下文，模型就不必那麼費力就能做對事情。基本上，這就是一個減少歧義的過程。」

這種方法讓 Probably 的資料科學工具能夠運行於顯著較小的 AI 模型之上。Elias 指出，目前版本使用的是比最前沿模型「弱四個級別」的模型。這意味著該工具可以在本地硬體（例如桌上型電腦，而非大型數據中心）上運行，大幅降低了與 AI 使用相關的龐大代幣（token）成本。

成本與應用潛力

在代幣成本不斷攀升、許多客戶重新評估 AI 預算的當下，Probably 的解決方案無疑是一項備受歡迎的創新。Elias 的構想也不僅限於資料科學領域，他認為相同的引擎可以擴展應用於會計或醫療服務等「任何對精確度敏感的使用案例」（any precision-sensitive use case）。

「我認為大型 AI 實驗室甚至沒有嘗試過做這件事，這點非常有趣。」Elias 說，「他們的動機並不在於此，因為你越常需要修正模型，他們就賺越多錢。」

AI 幻覺難纏！新創 Probably 獲 900 萬美元種子輪融資，打造更嚴謹的 AI 驗證機制

編輯核心觀點

首款產品：具備審核軌跡的資料科學工具

成本與應用潛力

資料來源

相關文章

挑戰 Transformer 霸權：AI 新創 Subquadratic 宣稱破解大型語言模型運算瓶頸

從撲克桌到華爾街：DeepMind 前研究員創立的 AI 實驗室 EquiLibre 估值衝上 5 億美元

AI 多代理系統頻頻出包？賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題

VLC 開發者轉戰機器人領域：Kyber 獲 500 萬美元融資，要讓「實體 AI」運作更流暢