NVIDIA 推出 Nemotron 3 Ultra:以混合架構挑戰 AI 代理執行效率極限
編輯核心觀點
- ✦NVIDIA 發布 5500 億參數的 Nemotron 3 Ultra 模型,透過混合 Mamba 與 Transformer 架構優化長序列推理效率。
- ✦該模型採用 LatentMoE 與多標記預測技術,在長任務代理場景中實現比同級開源模型高出約 6 倍的推論吞吐量。
- ✦透過多教師策略蒸餾與 4-bit 量化技術,模型在維持高準確度的同時,顯著降低了企業部署 AI 代理的運算成本。

專為長效 AI 代理設計的混合架構
NVIDIA 近期發布了 Nemotron 3 系列中規模最大的模型 Nemotron 3 Ultra。這是一款擁有 5500 億參數的混合專家模型(Mixture-of-Experts, MoE),其核心設計目標在於解決 AI 代理(Agents)在執行長期規劃、工具呼叫與跨輪次推理時,因 token 數量增加而導致的推論成本攀升問題。
不同於純粹的 Transformer 架構,Nemotron 3 Ultra 採用了混合 Mamba-Attention 架構。Mamba 層負責處理長序列,具備次二次方(sub-quadratic)的擴展能力,同時保留部分 Attention 層以確保在大規模上下文中的精確召回。該模型預訓練數據量高達 20 兆個 token,並將上下文長度擴展至 100 萬個 token。
關鍵技術突破:效率與精度的平衡
為了提升推理效率,NVIDIA 在架構設計上採取了三項關鍵策略:
- LatentMoE:透過犧牲隱藏層維度寬度,以固定推論成本換取更多路由專家,提升參數利用率。
- 多標記預測(Multi-Token Prediction, MTP):在單次前向傳遞中預測多個未來 token,實現原生的推測解碼,加速生成速度。
- NVFP4 量化:這是目前已知最大規模的穩定 NVFP4 訓練演示,透過二維區塊量化技術,顯著降低模型權重佔用空間。
訓練過程的工程挑戰與數據釋出
NVIDIA 在技術報告中公開了訓練期間遭遇的兩次損失發散(loss divergence)紀錄。第一次發生在 8 兆 token 處,原因在於將輸出層梯度縮減從 FP32 轉移至 BF16,導致梯度資訊丟失,最終透過改回 FP32 解決;第二次發生在 16 兆 token 處,則透過提前退火學習率(annealing)進行緩解。
除了模型本身,NVIDIA 還釋出了大規模的後訓練數據集,包括 1000 萬個監督微調(SFT)樣本與 100 萬個強化學習(RL)任務。此外,團隊引入了多教師策略蒸餾(MOPD),透過多個領域專精的教師模型提供密集的 token 級指導,解決了混合環境下強化學習獎勵稀疏的問題。
實際效能與部署優勢
在基準測試中,Nemotron 3 Ultra 展現了強大的競爭力。在 8K 輸入、64K 輸出的設定下,其吞吐量達到 GLM-5.1 的 5.9 倍,並比 Qwen-3.5 快 1.6 倍。此外,該模型支援三種推理模式,其中「中等努力(medium-effort)」模式能以約 7% 的準確度下降,換取 2.5 倍的 token 節省,有效降低高頻率代理任務的運算支出。
在部署方面,該模型最終以 5.03 bits-per-element 的配置運作,混合了 NVFP4 專家與 FP8 層。這種精簡的權重配置使得模型能夠在單個 8-GPU H100 節點上運行,解決了以往 FP8 檢查點無法適配的硬體限制。



