Mistral AI 推出 Leanstral 1.5:專攻自動化定理證明的開源代碼代理模型
編輯核心觀點
- ✦Mistral AI 發布 Leanstral 1.5,這是一款專為 Lean 4 證明助理設計的代碼代理模型,採用 Apache-2.0 授權開源。
- ✦該模型具備 119B 參數,透過混合專家架構(MoE)提升運算效率,並在 PutnamBench 等數學基準測試中展現頂尖解題能力。
- ✦除了數學證明,Leanstral 1.5 還能自動偵測軟體漏洞,已在開源專案中發現 5 個先前未被回報的程式錯誤。

專為數學證明與代碼工程打造
Mistral AI 近日釋出 Leanstral 1.5,這是一款針對 Lean 4 證明助理(Proof Assistant)開發的代碼代理模型。Lean 4 是一種能以機械方式檢查邏輯步驟的工具,可用於表達複雜的數學物件(如完美空間)或驗證程式碼片段的屬性。Leanstral 1.5 屬於 Mistral Small 4 系列,旨在推動自動化定理證明與證明工程的發展。
該模型採用混合專家架構(Mixture-of-Experts, MoE),總參數規模為 119B,但在處理每個 Token 時僅啟用 6.5B 參數,藉此在維持大容量的同時降低運算成本。其支援 256k Token 的上下文長度,並具備多模態輸入能力(接受文字與影像)。
強大的解題與驗證效能
根據 Mistral AI 的測試數據,Leanstral 1.5 在多項基準測試中表現優異:
在 miniF2F 驗證與測試集中達到 100% 的完成率;在 PutnamBench 測試中,成功解決 672 個問題中的 587 個。
在代碼驗證方面,該模型展現了極高的性價比。以 PutnamBench 為例,Leanstral 1.5 解決每個問題的成本約為 4 美元,相較於其他同類模型(如 Seed-Prover 1.5 的高階設定需約 300 美元)更具經濟效益。此外,該模型在 FLTEval 基準測試中,表現超越了 Opus 4.6,且成本僅為其七分之一。
實際應用:從 AVL 樹到軟體除錯
Leanstral 1.5 不僅限於數學領域,在工程應用上亦有顯著成果。Mistral 團隊指出,該模型曾成功證明一個 AVL 樹實作的 O(log n) 時間複雜度。此外,透過自動化管線將 Rust 程式碼轉換為 Lean 語言,Leanstral 1.5 在 57 個開源儲存庫中,成功標記了 47 個違反屬性的案例,並發現 11 個真實的軟體錯誤,其中 5 個為 GitHub 上先前未曾回報的漏洞,例如在 datrs/varinteger 的 zigzag 解碼函數中,因數值溢位導致的崩潰問題。
部署與使用方式
開發者可透過多種方式存取 Leanstral 1.5:
- Mistral Vibe:透過 Mistral 的代理 CLI 工具,在免費計畫下即可使用。
- 自行託管:使用 vLLM 0.24.0 或更新版本,並設定
tensor-parallel-size 4進行部署。 - API 呼叫:支援 OpenAI 相容的用戶端,開發者可根據需求調整
reasoning_effort參數。
Mistral AI 同時建議開發者搭配 lean-lsp-mcp 伺服器,以獲得更緊密的 Lean 整合體驗。



