Mistral AI 開源模型 Leanstral 1.5 震撼登場:數學驗證能力登峰造極,更揪出程式碼潛藏漏洞
編輯核心觀點
- ✦Mistral AI 推出開源模型 Leanstral 1.5,專為 Lean 4 程式語言的數學與軟體形式驗證而生。
- ✦該模型在多項高難度數學基準測試中表現卓越,包括 miniF2F 達 100% 準確率,並在開源領域超越眾多競爭者。
- ✦Leanstral 1.5 不僅擅長數學,更實際掃描開源專案,成功揪出五個先前未知的程式碼漏洞。

法國人工智慧新創 Mistral AI 近日發布了其最新力作——開源模型 Leanstral 1.5。這款模型以 Apache 2.0 授權條款釋出,旨在為 Lean 4 程式語言提供強大的形式驗證能力。Lean 4 是一種專為形式化驗證數學證明與軟體正確性而設計的程式語言,而 Leanstral 1.5 的問世,預示著 AI 在精確科學領域的應用將邁向新里程碑。
數學驗證能力登峰造極:從高中數學到博士等級挑戰
Mistral AI 強調,Leanstral 1.5 在多項嚴苛的數學基準測試中展現了驚人的表現。其中,在涵蓋高中至國際數學奧林匹亞難度的「miniF2F」形式數學基準測試中,該模型達到了 100% 的準確率,證明其在基礎與進階數學推導上的卓越能力。
面對美國大學生數學競賽(Putnam math competition)的「PutnamBench」基準測試,Leanstral 1.5 在 672 道題目中成功解決了 587 道。更令人印象深刻的是,在測試碩士與博士級代數任務(如群論與環論)的「FATE-H」與「FATE-X」基準測試中,它分別取得了 87% 和 34% 的頂尖成績。
Leanstral 1.5 數學基準測試表現:
- miniF2F:100% 準確率(涵蓋高中至數學奧林匹亞難度)
- PutnamBench:672 題中解決 587 題(美國大學生數學競賽)
- FATE-H:87% 準確率(碩士級代數任務)
- FATE-X:34% 準確率(博士級代數任務)
在開源模型領域,Leanstral 1.5 在 PutnamBench、FATE-H 和 FATE-X 等測試中均名列前茅,展現其無與倫比的競爭力。目前,僅有閉源的 Aleph Prover 在 PutnamBench 上的表現超越了它,這更突顯了 Leanstral 1.5 作為開源解決方案的領先地位。
不只精通數學,更能揪出程式碼潛藏漏洞
儘管 Leanstral 1.5 的主要訓練目標是數學驗證,但 Mistral AI 指出,該模型在程式碼驗證方面同樣表現出色。為驗證其實用性,研究團隊進行了一項實際測試:Leanstral 1.5 掃描了 57 個開源程式碼庫,並成功發現了五個先前未知的程式碼錯誤。其中一個顯著的例子,是在 Rust 程式語言的 varinteger 函式庫中,揪出了一個潛在的溢位(overflow)漏洞。
這項成果證明了 Leanstral 1.5 不僅能處理抽象的數學問題,更能深入程式碼的細節,協助開發者提升軟體品質與安全性。對於日益複雜的軟體生態系統而言,這類能夠自動化發現潛在錯誤的工具,無疑具有巨大的價值。
模型取得與訓練細節
目前,Leanstral 1.5 模型已透過 Hugging Face 平台開放給大眾使用,同時也提供了免費的應用程式介面(API),讓開發者能夠輕鬆整合其功能。在訓練方面,Mistral AI 採用了多階段策略,包括中期訓練(mid-training)、監督式微調(supervised fine-tuning)以及強化學習(reinforcement learning),以確保模型在各項任務上都能達到最佳表現。
Leanstral 1.5 的發布,不僅為形式驗證領域帶來了強大的開源工具,也再次證明了大型語言模型在超越傳統自然語言處理任務上的巨大潛力。它為數學家、程式設計師和研究人員提供了一個前所未有的工具,能以更高的效率和準確性,確保數學證明和軟體系統的嚴謹性與可靠性。



