返回首頁

Mistral AI 推出 Leanstral 1.5:專攻自動化定理證明的開源代碼代理模型

編輯核心觀點

  • Mistral AI 發布 Leanstral 1.5,這是一款專為 Lean 4 證明助理設計的代碼代理模型,採用 Apache-2.0 授權開源。
  • 該模型具備 119B 參數,透過混合專家架構(MoE)提升運算效率,並在 PutnamBench 等數學基準測試中展現頂尖解題能力。
  • 除了數學證明,Leanstral 1.5 還能自動偵測軟體漏洞,已在開源專案中發現 5 個先前未被回報的程式錯誤。
Mistral AI 推出 Leanstral 1.5:專攻自動化定理證明的開源代碼代理模型

專為數學證明與代碼工程打造

Mistral AI 近日釋出 Leanstral 1.5,這是一款針對 Lean 4 證明助理(Proof Assistant)開發的代碼代理模型。Lean 4 是一種能以機械方式檢查邏輯步驟的工具,可用於表達複雜的數學物件(如完美空間)或驗證程式碼片段的屬性。Leanstral 1.5 屬於 Mistral Small 4 系列,旨在推動自動化定理證明與證明工程的發展。

該模型採用混合專家架構(Mixture-of-Experts, MoE),總參數規模為 119B,但在處理每個 Token 時僅啟用 6.5B 參數,藉此在維持大容量的同時降低運算成本。其支援 256k Token 的上下文長度,並具備多模態輸入能力(接受文字與影像)。

強大的解題與驗證效能

根據 Mistral AI 的測試數據,Leanstral 1.5 在多項基準測試中表現優異:

在 miniF2F 驗證與測試集中達到 100% 的完成率;在 PutnamBench 測試中,成功解決 672 個問題中的 587 個。

在代碼驗證方面,該模型展現了極高的性價比。以 PutnamBench 為例,Leanstral 1.5 解決每個問題的成本約為 4 美元,相較於其他同類模型(如 Seed-Prover 1.5 的高階設定需約 300 美元)更具經濟效益。此外,該模型在 FLTEval 基準測試中,表現超越了 Opus 4.6,且成本僅為其七分之一。

實際應用:從 AVL 樹到軟體除錯

Leanstral 1.5 不僅限於數學領域,在工程應用上亦有顯著成果。Mistral 團隊指出,該模型曾成功證明一個 AVL 樹實作的 O(log n) 時間複雜度。此外,透過自動化管線將 Rust 程式碼轉換為 Lean 語言,Leanstral 1.5 在 57 個開源儲存庫中,成功標記了 47 個違反屬性的案例,並發現 11 個真實的軟體錯誤,其中 5 個為 GitHub 上先前未曾回報的漏洞,例如在 datrs/varinteger 的 zigzag 解碼函數中,因數值溢位導致的崩潰問題。

部署與使用方式

開發者可透過多種方式存取 Leanstral 1.5:

  • Mistral Vibe:透過 Mistral 的代理 CLI 工具,在免費計畫下即可使用。
  • 自行託管:使用 vLLM 0.24.0 或更新版本,並設定 tensor-parallel-size 4 進行部署。
  • API 呼叫:支援 OpenAI 相容的用戶端,開發者可根據需求調整 reasoning_effort 參數。

Mistral AI 同時建議開發者搭配 lean-lsp-mcp 伺服器,以獲得更緊密的 Lean 整合體驗。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章