Mistral AI 推出 Leanstral 1.5：專攻自動化定理證明的開源代碼代理模型

專為數學證明與代碼工程打造

Mistral AI 近日釋出 Leanstral 1.5，這是一款針對 Lean 4 證明助理（Proof Assistant）開發的代碼代理模型。Lean 4 是一種能以機械方式檢查邏輯步驟的工具，可用於表達複雜的數學物件（如完美空間）或驗證程式碼片段的屬性。Leanstral 1.5 屬於 Mistral Small 4 系列，旨在推動自動化定理證明與證明工程的發展。

該模型採用混合專家架構（Mixture-of-Experts, MoE），總參數規模為 119B，但在處理每個 Token 時僅啟用 6.5B 參數，藉此在維持大容量的同時降低運算成本。其支援 256k Token 的上下文長度，並具備多模態輸入能力（接受文字與影像）。

強大的解題與驗證效能

根據 Mistral AI 的測試數據，Leanstral 1.5 在多項基準測試中表現優異：

在 miniF2F 驗證與測試集中達到 100% 的完成率；在 PutnamBench 測試中，成功解決 672 個問題中的 587 個。

在代碼驗證方面，該模型展現了極高的性價比。以 PutnamBench 為例，Leanstral 1.5 解決每個問題的成本約為 4 美元，相較於其他同類模型（如 Seed-Prover 1.5 的高階設定需約 300 美元）更具經濟效益。此外，該模型在 FLTEval 基準測試中，表現超越了 Opus 4.6，且成本僅為其七分之一。

實際應用：從 AVL 樹到軟體除錯

Leanstral 1.5 不僅限於數學領域，在工程應用上亦有顯著成果。Mistral 團隊指出，該模型曾成功證明一個 AVL 樹實作的 O(log n) 時間複雜度。此外，透過自動化管線將 Rust 程式碼轉換為 Lean 語言，Leanstral 1.5 在 57 個開源儲存庫中，成功標記了 47 個違反屬性的案例，並發現 11 個真實的軟體錯誤，其中 5 個為 GitHub 上先前未曾回報的漏洞，例如在 datrs/varinteger 的 zigzag 解碼函數中，因數值溢位導致的崩潰問題。