返回首頁

Cohere 推出『North Mini Code』:300 億參數 MoE 模型,開啟自主 AI 編程新時代

編輯核心觀點

  • Cohere 近期發表首款面向開發者的開源編程模型 North Mini Code,採用稀疏混合專家(MoE)架構,總參數達 300 億,但每次運算僅啟用 30 億參數。
  • 該模型專為「自主 AI」設計,能以高效能執行程式碼生成、代理式軟體工程及終端任務,並支援 256K 上下文視窗與 64K 最大輸出長度。
  • North Mini Code 在內部測試中展現卓越效能,輸出吞吐量最高可達同級模型的 2.8 倍,並在多項編程基準測試中取得競爭性成績。
Cohere 推出『North Mini Code』:300 億參數 MoE 模型,開啟自主 AI 編程新時代

人工智慧新創 Cohere AI 團隊本週推出其首款面向開發者的程式碼生成模型——「North Mini Code」。這款模型採開源權重(open-weight)發布,專為軟體工程師量身打造,其核心特色在於採用了稀疏混合專家(Mixture-of-Experts, MoE)架構,總參數規模高達 300 億,但在每次運算時,僅會啟用其中的 30 億個參數,大幅提升了運算效率。

核心理念:「自主 AI」與高效能編程

North Mini Code 的發布,圍繞著「自主 AI」(sovereign AI)的核心理念。這個概念旨在讓團隊能以自己的方式運行高效能模型,掌握更大的控制權。小型且高效的程式碼生成模型,讓開發團隊無需依賴龐大的 GPU 叢集,也能自行託管並部署 AI 工具。North Mini Code 正是為了填補這一市場空白而生。

這款模型被優化用於三大核心任務:程式碼生成(code generation)、代理式軟體工程(agentic software engineering),以及終端任務(terminal tasks)。它採用純文字輸入、純文字輸出的模式,不支援圖像或影片等多模態輸入。

技術解密:稀疏混合專家架構

North Mini Code 是一款解碼器專用(decoder-only)的 Transformer 模型,其內部整合了稀疏 MoE 層。在注意力機制方面,它以 3:1 的比例交錯使用兩種注意力類型:滑動視窗注意力(sliding-window attention)結合了旋轉位置嵌入(RoPE)來處理位置資訊;而全域注意力(global attention)則完全不使用位置嵌入。其前饋網路區塊(feed-forward block)內含 128 個專家(experts),每個運算單元(token)會啟用其中 8 個專家,每個專家都是一個帶有 SwiGLU 活化函數的前饋網路(FFN)。

路由層(router)在進行 Top-K 選擇前會應用 Sigmoid 函數,而稀疏層之前則設有一個單一的密集層(dense layer)。這種設計巧妙地在擴大模型總容量的同時,維持了活躍運算量在較低的水平。Cohere 以 BF16 精度發布了模型的權重。

模型在預訓練之後,經歷了兩個階段的後訓練(post-training):首先是兩階段的級聯監督式微調(cascaded supervised fine-tuning, SFT),接著是透過可驗證獎勵的強化學習(reinforcement learning with verifiable rewards, RLVR)。這些後訓練階段主要聚焦於提升模型的代理式編程能力,使其能支援交錯思考(interleaved thinking)和原生工具使用(native tool use)。

效能實測:基準與速度表現

根據 Cohere 官方報告,North Mini Code 在「人工分析編程指數」(Artificial Analysis Coding Index)上取得了 33.4 分,這在同等規模的模型中具有相當的競爭力。Cohere 評估模型的基準測試涵蓋了多個領域,包括 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2、Terminal-Bench Hard、SciCode,以及 LiveCodeBench v6。

測試方法嚴謹:SWE-Bench 採用 SWE-agent harness v1.1.0;Terminal-Bench v2 使用簡單的 ReAct harness 搭配一個終端工具;Terminal-Bench Hard 則使用 Terminus-2 harness。每個基準測試都運行了三次,並取平均值。採樣時,溫度(temperature)設定為 1.0,top_p 設定為 0.95。

在速度方面,Cohere 的內部測試顯示,在相同的並行處理和硬體條件下,North Mini Code 的輸出吞吐量(output throughput)最高可達 2.8 倍,且在詞元間延遲(inter-token latency)方面領先 30%。不過,在首次詞元生成時間(time-to-first-token, TTFT)上,Devstral Small 2 仍略微領先。

多元應用場景:代理式編程與終端任務

North Mini Code 專為代理式工作流程而設計,Cohere 歸納出三大主要應用模式:

  • 子代理協調(Sub-agent orchestration):一個主代理(main agent)將子任務委派給多個輔助代理。例如,一個代理負責撰寫單元測試,而另一個代理則負責修復失敗的程式碼。
  • 系統架構映射(Systems architecture mapping):模型能夠讀取程式碼儲存庫(repository),並繪製其結構。例如,在進行大規模重構之前,追蹤不同服務之間的呼叫關係。
  • 程式碼審查(Code reviews):模型掃描程式碼差異(diff),找出潛在問題。例如,在合併程式碼之前,標記未受保護的空指標解引用(unguarded null dereference)錯誤。

此外,North Mini Code 也非常適合處理終端任務。例如,列出檔案、執行建置(build)命令,然後解析輸出以檢查錯誤。

部署與取得方式

North Mini Code 的上下文視窗(context window)為 256K 詞元,最大輸出長度為 64K 詞元。Cohere 列出的最低硬體要求為一片 H100 GPU(FP8 精度)。模型的權重以 Apache 2.0 授權條款在 Hugging Face 上發布,但需注意 Hugging Face 頁面額外註明了非商業用途的限制。開發者也可以透過 Cohere API、Model Vault 和 OpenRouter 存取該模型。

對於希望快速上手的開發者,最便捷的方式是透過 Hugging Face Transformers 函式庫。同時,模型也支援 vLLM 進行服務部署,並提供適用於 Ollama、LM Studio 和 llama.cpp 的量化版本。Cohere 也透過 OpenCode 和託管的 Hugging Face Space 提供免費試用。

為什麼重要

North Mini Code 的推出,不僅為軟體工程師帶來了一個高效能的開源編程助手,更重要的是,它體現了「自主 AI」的發展趨勢。在 AI 模型日益強大的同時,如何讓開發者能更靈活、更具控制權地運用這些工具,成為產業關注的焦點。North Mini Code 以其輕量化、高效能的 MoE 架構,降低了自行託管 AI 模型的門檻,讓更多團隊能在自己的基礎設施上,安全且高效地執行複雜的代理式編程任務,進一步推動 AI 在軟體開發流程中的深度整合與創新。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章