告別單次檢索！LlamaIndex 發布 legal-kb：讓 AI 像工程師一樣「操作檔案」進行精準問答

從「一次性搜尋」轉向「代理人式檢索」

LlamaIndex 近期於 GitHub 發布了一項名為 legal-kb 的開源參考應用，旨在解決法律與金融領域中，處理大量且持續變動文件時的檢索難題。這項專案展示了團隊稱之為「檢索工具鏈（Retrieval Harness）」的架構，與傳統單次向量搜尋（Single-shot Retrieval）不同，該系統將 AI 視為一個能操作檔案系統的代理人。

在 legal-kb 中，AI 不再僅是執行一次向量比對，而是被賦予了四種核心工具，這些工具的操作邏輯與工程師熟悉的指令高度相似：

retrieve：執行混合語意搜尋，支援重排序（reranking）與分數閾值設定。
findFiles：搜尋特定檔案名稱或子字串。
readFile：讀取原始檔案內容，並支援偏移量與長度設定。
grepFile：在單一檔案內執行正規表達式（regex）比對。

嚴謹的執行邏輯與視覺化引用

為了確保回答的精確度，系統透過提示詞（System Prompt）強制代理人遵循特定的執行順序：首先必須呼叫 findFiles 建立文件清單，接著使用 retrieve 縮小範圍，最後透過 readFile 或 grepFile 確認確切文字後才進行引用。

Always call findFiles first, ground every answer in the documents, and cite ids inline as `cite:`.

這種設計不僅提升了檢索的深度，還解決了 AI 幻覺問題。當 AI 引用資料時，UI 會渲染出可點擊的引用標籤（Citation Chip），點擊後即可開啟原始文件的截圖，並透過邊界框（Bounding Box）精確標示出引用的文字區塊。

支援版本控制的資料管線

legal-kb 的後端架構由 LlamaCloud Index v2 驅動，具備持久化的資料管線。當使用者上傳檔案時，系統會自動進行解析與索引，並針對「專案-檔名」組合進行版本控制。若使用者重複上傳同名檔案，系統會自動產生 v1、v2 等版本，代理人則可透過 metadata 過濾器查詢特定版本的文件，這對於需要追蹤合約變更或政策演進的場景至關重要。

該系統技術堆疊包含 TanStack Start、Vercel AI SDK 6 以及 Prisma，並允許使用者選擇 OpenAI 或 Anthropic 模型。透過這種「代理人式檢索」，AI 能夠在處理如盡職調查（Due Diligence）等複雜任務時，跨文件交叉比對條款，無需人工逐一開啟 PDF 檢查。

告別單次檢索！LlamaIndex 發布 legal-kb：讓 AI 像工程師一樣「操作檔案」進行精準問答

編輯核心觀點

從「一次性搜尋」轉向「代理人式檢索」

嚴謹的執行邏輯與視覺化引用

支援版本控制的資料管線

資料來源

相關文章

Google 搜尋 25 年來最大變革：告別關鍵字，全面擁抱 AI 對話介面

告別科研碎片化：Anthropic 推出 Claude Science 工作台，讓 AI 成為科學家的自動化研究助理

Google Maps 測試 AI 點餐功能：未來直接對地圖下指令就能搞定外帶

Mistral AI 推出 Leanstral 1.5：專攻自動化定理證明的開源代碼代理模型