NVIDIA 發布 Nemotron 3 Super:120B 開源推理模型,直指 Agentic AI 落地
NVIDIA 於 2026 年 3 月 11 日發布 Nemotron 3 Super。這款 120B 參數、12B 激活的開源模型主打 1M 上下文、混合 Mamba-Transformer 與更高推理吞吐,目標很明確:把多智能體與長任務工作流真正推進生產環境。
NVIDIA 在 2026 年 3 月 11 日正式推出 Nemotron 3 Super。如果只看一句話,這是一款為 agentic AI 和長流程推理而生的開源大模型。它採用 120B 總參數、12B 激活參數設計,支援最長 1M token 上下文,並把 LatentMoE、MTP、NVFP4 與混合 Mamba-Transformer 架構放進同一條產品線。
這次發布值得留意,不只是因為規格大。更重要的是,NVIDIA 明顯在回答一個現在所有團隊都碰到的現實問題:當 AI 開始同時調多個工具、處理更長程式碼上下文、或者讓多個 agent 協作時,延遲、吞吐和成本很快就會把體驗拖垮。Nemotron 3 Super 就是朝這個瓶頸來的。
這次發布了什麼
根據 NVIDIA 官方部落格、研究頁面與 model card,Nemotron 3 Super 的核心規格包括:
- 120B 總參數,12B 激活參數
- 最長 1M token 上下文窗口
- 混合 Mamba-Transformer 與 LatentMoE 架構
- 原生針對 agentic reasoning、tool use、RAG 工作流優化
- 支援商用,並同步釋出權重、技術報告、訓練配方與資料集
這種配置很像 NVIDIA 對市場需求做出的直接回應。現在很多團隊不缺模型,缺的是一個在長上下文、多步驟任務裡還能跑得夠快、夠穩、夠便宜的模型。
為什麼它被拿來打 Agentic AI
NVIDIA 在官方說法裡反覆提到兩個麻煩:context explosion 和 thinking tax。前者很好理解,任務一旦從單輪問答變成代理工作流,token 量會暴增;後者則是模型在複雜推理時,計算開銷和等待時間也跟著膨脹。
Nemotron 3 Super 的設計基本就是圍著這兩件事轉。1M 上下文讓模型更適合直接吃進大型程式碼庫、長文檔或多輪工具記錄;12B active 的設計則試圖把推理成本壓在較低水平。對需要做程式碼代理、企業知識檢索、工單分析或安全事件分類的團隊來說,這比單純把 benchmark 再往上推一點更實用。
如果你最近也在看代理工作流,可以一起讀我們之前的 AI 代理實戰指南 與 MCP 與 Agentic AI 實用指南。Nemotron 3 Super 其實正好落在這兩類系統最在意的模型層。
性能數字有多激進
這次最吸睛的,還是 NVIDIA 給出的吞吐和推理效率數字。
根據 NVIDIA Research 頁面與技術報告,在 8K 輸入、16K 輸出的測試設定下,Nemotron 3 Super 的推理吞吐量最高可達:
- 相比 GPT-OSS-120B 提高 2.2 倍
- 相比 Qwen3.5-122B 提高 7.5 倍
NVIDIA 官方新聞稿式部落格則給了另一組更易懂的口徑:相較前代 Nemotron Super,Nemotron 3 Super 在某些場景下可提供最高 5 倍吞吐與最高 2 倍精度提升。
第三方機構 Artificial Analysis 也在 3 月 11 日做了快速評估。它給出的觀察比較保守,但也更接近外部視角:Nemotron 3 Super 的綜合能力位置高於 GPT-OSS-120B,但還未超過更強版本的 Qwen 3.5 122B A10B。換句話說,它不是「全面封神」,但在開放權重模型裡,已經很有競爭力,而且效率尤其突出。
技術上它做了哪些事
從官方技術材料來看,Nemotron 3 Super 不是靠單一技巧硬推上去,而是把幾個方向一起堆疊起來。
1. NVFP4 預訓練
NVIDIA 把 NVFP4 放進預訓練流程,這是 Blackwell 平台上一個關鍵訊號。官方表示,在 Blackwell 上用 NVFP4 推理,最高可比 Hopper 上的 FP8 快 4 倍。這也說明 Nemotron 3 Super 不只是模型發布,本質上也是 NVIDIA 自家硬體路線的示範作。
2. LatentMoE
LatentMoE 的目標很直接:保留 MoE 架構的效率優勢,但讓長上下文與高吞吐場景更可控。對企業來說,這種技術不一定會直接寫進採購決策,但最終會反映在推理成本和服務延遲上。
3. MTP 與混合 Mamba-Transformer
MTP(多 token 預測)與 Hybrid Mamba-Attention 的組合,明顯是在為長輸出和代理執行鏈設計。這類工作負載不是回答一句話就結束,而是要產生長段推理、計畫、程式碼、工具調用記錄,所以生成速度很容易成為瓶頸。
誰已經在用
NVIDIA 沒把 Nemotron 3 Super 包裝成一個「研究室展示品」。官方列出的合作與採用名單包括 Perplexity、CodeRabbit、Factory、Greptile、Palantir、Cadence 與 Siemens。
這份名單透露出一個很清楚的方向。Nemotron 3 Super 想切進的不是聊天機器人首頁,而是實際跑在程式碼審查、企業工程、工業軟體與知識工作流後台的那一層。這種路線未必最熱鬧,但往往更接近付費場景。
我們怎麼看這件事
我覺得這次發布最有意思的地方,不是 NVIDIA 做了一個更大的開源模型,而是它把「開放權重 + 長上下文 + 高吞吐 + 代理工作流」綁成同一個產品敘事。這比單純追求最強通用模型更務實。
當前市場上,很多模型都能做 demo,但一旦進入真實 agent 系統,問題就不是它會不會推理,而是它能不能在夠長的上下文裡持續推理,還別把延遲和 GPU 帳單拉爆。Nemotron 3 Super 至少正面回應了這個矛盾。
當然,官方 benchmark 永遠要打點折扣。真正的分水嶺還是外部部署結果,包括不同框架下的穩定性、工具調用成功率,以及長任務中的錯誤累積速度。不過就 2026 年 3 月這個時間點來看,Nemotron 3 Super 已經足夠成為開放模型陣營裡最值得追的一個新變量。
參考來源
- NVIDIA Blog: Introducing NVIDIA Nemotron 3 Super for Building Agentic AI Systems
- NVIDIA Developer Blog: Introducing Nemotron-3 Super, an Open Hybrid Mamba Transformer MoE for Agentic Reasoning
- NVIDIA Research: Nemotron-3 Super
- NVIDIA Build Model Card: Nemotron-3-Super-120B-A12B
- NVIDIA Technical Report PDF: NVIDIA Nemotron-3 Super
- Artificial Analysis: Nvidia Nemotron 3 Super, The New Leader in Open Efficient Intelligence?
分享文章
留言評論
0 則評論暫無評論,搶先發表你的看法吧!
相關文章
AI 最新資訊週報:3 月第二週最值得看的 5 條官方更新
截至 2026 年 3 月 15 日,AI 行業這一週最值得看的,不只是誰又發了更強的模型。OpenAI、Google、Microsoft、NVIDIA 與 Anthropic 的 5 條官方更新,正在把競爭重心推向安全、嵌入、代理治理與企業落地。
DeepSeek V4 打破慣例:拒絕 Nvidia、AMD,優先華為適配
DeepSeek 在即將發布的 V4 旗艦模型中打破行業慣例,未向美國芯片巨頭提供預發布版本,轉而給予華為等中國廠商數週優先適配期,標誌著 AI 產業鏈格局的重大轉變。
微軟把 Copilot 推向「代理時代」:Wave 3、Agent 365 與 Frontier Suite 到底意味著什麼?
2026 年 3 月 9 日,微軟發布 Microsoft 365 Copilot Wave 3、Agent 365 與 Frontier Suite,試圖把企業 AI 從聊天助手推向可治理的代理系統。本文拆解新功能、定價、競爭意義與潛在風險。