Liquid AI 推輕量級檢索模型：350M 參數挑戰跨語言搜尋，筆電也能跑高效 RAG

輕量化檢索新選擇：Liquid AI 推出 LFM2.5 系列模型

Liquid AI 近期發表兩款全新的檢索模型：LFM2.5-ColBERT-350M 與 LFM2.5-Embedding-350M。這兩款模型均擁有 3.5 億（350M）參數，是 LFM 系列中首批採用雙向架構的成員，旨在提供快速且精準的跨語言搜尋能力，支援包含英語、日語、韓語、德語、法語等 11 種語言。

兩種架構，滿足不同精度需求

儘管兩款模型共享相同的基礎架構，但針對不同的應用場景設計了不同的輸出機制：

LFM2.5-Embedding-350M（密集雙編碼器）：將每個文件轉換為單一向量。適用於追求極致搜尋速度與最小索引儲存空間的場景。
LFM2.5-ColBERT-350M（後期互動模型）：將每個 token 轉換為向量，實現詞對詞的匹配。雖然索引體積較大，但能提供更高的搜尋準確度與泛化能力，並支援對初步檢索結果進行重新排序（Reranking）。

從因果模型到雙向架構的技術突破

這兩款模型皆源自今年 3 月發布的 LFM2.5-350M-Base。為了適應檢索任務，Liquid AI 將原本用於生成任務的「因果解碼器（Causal Decoder）」調整為「雙向編碼器（Bidirectional Encoder）」。團隊移除了因果注意力遮罩，讓每個 token 都能同時關注左右兩側的上下文，並將卷積層調整為非因果模式，確保模型能捕捉完整的上下文資訊。

效能與邊緣部署表現

在基準測試中，兩款模型均展現出優於同級產品的競爭力。Liquid AI 釋出了適用於 llama.cpp 的 GGUF 格式，讓模型能在 CPU 或筆記型電腦等邊緣裝置上運行。實測顯示，在 MacBook Pro M4 Max 上，若文件索引已預先計算，查詢延遲可控制在 10 毫秒以內；而在企業級 H100 GPU 平台上，延遲甚至可低至 1 毫秒。

Liquid AI 將其定位為現有 RAG（檢索增強生成）管線的直接替代方案，特別適合電子商務產品目錄、FAQ 知識庫以及企業內部文件檢索等應用。目前兩款模型已於 Hugging Face 上架，並採用 LFM Open License v1.0 授權。