NVIDIA 推出 Nemotron 3 Ultra：以混合架構挑戰 AI 代理執行效率極限

專為長效 AI 代理設計的混合架構

NVIDIA 近期發布了 Nemotron 3 系列中規模最大的模型 Nemotron 3 Ultra。這是一款擁有 5500 億參數的混合專家模型（Mixture-of-Experts, MoE），其核心設計目標在於解決 AI 代理（Agents）在執行長期規劃、工具呼叫與跨輪次推理時，因 token 數量增加而導致的推論成本攀升問題。

不同於純粹的 Transformer 架構，Nemotron 3 Ultra 採用了混合 Mamba-Attention 架構。Mamba 層負責處理長序列，具備次二次方（sub-quadratic）的擴展能力，同時保留部分 Attention 層以確保在大規模上下文中的精確召回。該模型預訓練數據量高達 20 兆個 token，並將上下文長度擴展至 100 萬個 token。

關鍵技術突破：效率與精度的平衡

為了提升推理效率，NVIDIA 在架構設計上採取了三項關鍵策略：

LatentMoE：透過犧牲隱藏層維度寬度，以固定推論成本換取更多路由專家，提升參數利用率。
多標記預測（Multi-Token Prediction, MTP）：在單次前向傳遞中預測多個未來 token，實現原生的推測解碼，加速生成速度。
NVFP4 量化：這是目前已知最大規模的穩定 NVFP4 訓練演示，透過二維區塊量化技術，顯著降低模型權重佔用空間。

訓練過程的工程挑戰與數據釋出

NVIDIA 在技術報告中公開了訓練期間遭遇的兩次損失發散（loss divergence）紀錄。第一次發生在 8 兆 token 處，原因在於將輸出層梯度縮減從 FP32 轉移至 BF16，導致梯度資訊丟失，最終透過改回 FP32 解決；第二次發生在 16 兆 token 處，則透過提前退火學習率（annealing）進行緩解。

除了模型本身，NVIDIA 還釋出了大規模的後訓練數據集，包括 1000 萬個監督微調（SFT）樣本與 100 萬個強化學習（RL）任務。此外，團隊引入了多教師策略蒸餾（MOPD），透過多個領域專精的教師模型提供密集的 token 級指導，解決了混合環境下強化學習獎勵稀疏的問題。

實際效能與部署優勢

在基準測試中，Nemotron 3 Ultra 展現了強大的競爭力。在 8K 輸入、64K 輸出的設定下，其吞吐量達到 GLM-5.1 的 5.9 倍，並比 Qwen-3.5 快 1.6 倍。此外，該模型支援三種推理模式，其中「中等努力（medium-effort）」模式能以約 7% 的準確度下降，換取 2.5 倍的 token 節省，有效降低高頻率代理任務的運算支出。

在部署方面，該模型最終以 5.03 bits-per-element 的配置運作，混合了 NVFP4 專家與 FP8 層。這種精簡的權重配置使得模型能夠在單個 8-GPU H100 節點上運行，解決了以往 FP8 檢查點無法適配的硬體限制。