告別單次檢索!LlamaIndex 發布 legal-kb:讓 AI 像工程師一樣「操作檔案」進行精準問答
編輯核心觀點
- ✦LlamaIndex 推出 legal-kb 開源參考應用,透過代理人(Agent)工具鏈取代傳統單次檢索模式。
- ✦系統賦予 AI 類似檔案系統的操作權限,包含語意搜尋、關鍵字 grep、檔案讀取與清單檢索。
- ✦該架構支援文件版本控制,並能提供視覺化引用,直接在原始文件截圖中標註答案來源。

從「一次性搜尋」轉向「代理人式檢索」
LlamaIndex 近期於 GitHub 發布了一項名為 legal-kb 的開源參考應用,旨在解決法律與金融領域中,處理大量且持續變動文件時的檢索難題。這項專案展示了團隊稱之為「檢索工具鏈(Retrieval Harness)」的架構,與傳統單次向量搜尋(Single-shot Retrieval)不同,該系統將 AI 視為一個能操作檔案系統的代理人。
在 legal-kb 中,AI 不再僅是執行一次向量比對,而是被賦予了四種核心工具,這些工具的操作邏輯與工程師熟悉的指令高度相似:
- retrieve:執行混合語意搜尋,支援重排序(reranking)與分數閾值設定。
- findFiles:搜尋特定檔案名稱或子字串。
- readFile:讀取原始檔案內容,並支援偏移量與長度設定。
- grepFile:在單一檔案內執行正規表達式(regex)比對。
嚴謹的執行邏輯與視覺化引用
為了確保回答的精確度,系統透過提示詞(System Prompt)強制代理人遵循特定的執行順序:首先必須呼叫 findFiles 建立文件清單,接著使用 retrieve 縮小範圍,最後透過 readFile 或 grepFile 確認確切文字後才進行引用。
Always call findFiles first, ground every answer in the documents, and cite ids inline as `cite:`.
這種設計不僅提升了檢索的深度,還解決了 AI 幻覺問題。當 AI 引用資料時,UI 會渲染出可點擊的引用標籤(Citation Chip),點擊後即可開啟原始文件的截圖,並透過邊界框(Bounding Box)精確標示出引用的文字區塊。
支援版本控制的資料管線
legal-kb 的後端架構由 LlamaCloud Index v2 驅動,具備持久化的資料管線。當使用者上傳檔案時,系統會自動進行解析與索引,並針對「專案-檔名」組合進行版本控制。若使用者重複上傳同名檔案,系統會自動產生 v1、v2 等版本,代理人則可透過 metadata 過濾器查詢特定版本的文件,這對於需要追蹤合約變更或政策演進的場景至關重要。
該系統技術堆疊包含 TanStack Start、Vercel AI SDK 6 以及 Prisma,並允許使用者選擇 OpenAI 或 Anthropic 模型。透過這種「代理人式檢索」,AI 能夠在處理如盡職調查(Due Diligence)等複雜任務時,跨文件交叉比對條款,無需人工逐一開啟 PDF 檢查。



