NVIDIA 發布 Nemotron 3 Super：120B 開源推理模型，直指 Agentic AI 落地

NVIDIA 在 2026 年 3 月 11 日正式推出 Nemotron 3 Super。如果只看一句話，這是一款為 agentic AI 和長流程推理而生的開源大模型。它採用 120B 總參數、12B 激活參數設計，支援最長 1M token 上下文，並把 LatentMoE、MTP、NVFP4 與混合 Mamba-Transformer 架構放進同一條產品線。

這次發布值得留意，不只是因為規格大。更重要的是，NVIDIA 明顯在回答一個現在所有團隊都碰到的現實問題：當 AI 開始同時調多個工具、處理更長程式碼上下文、或者讓多個 agent 協作時，延遲、吞吐和成本很快就會把體驗拖垮。Nemotron 3 Super 就是朝這個瓶頸來的。

這次發布了什麼

根據 NVIDIA 官方部落格、研究頁面與 model card，Nemotron 3 Super 的核心規格包括：

120B 總參數，12B 激活參數
最長 1M token 上下文窗口
混合 Mamba-Transformer 與 LatentMoE 架構
原生針對 agentic reasoning、tool use、RAG 工作流優化
支援商用，並同步釋出權重、技術報告、訓練配方與資料集

這種配置很像 NVIDIA 對市場需求做出的直接回應。現在很多團隊不缺模型，缺的是一個在長上下文、多步驟任務裡還能跑得夠快、夠穩、夠便宜的模型。

為什麼它被拿來打 Agentic AI

NVIDIA 在官方說法裡反覆提到兩個麻煩：context explosion 和 thinking tax。前者很好理解，任務一旦從單輪問答變成代理工作流，token 量會暴增；後者則是模型在複雜推理時，計算開銷和等待時間也跟著膨脹。

Nemotron 3 Super 的設計基本就是圍著這兩件事轉。1M 上下文讓模型更適合直接吃進大型程式碼庫、長文檔或多輪工具記錄；12B active 的設計則試圖把推理成本壓在較低水平。對需要做程式碼代理、企業知識檢索、工單分析或安全事件分類的團隊來說，這比單純把 benchmark 再往上推一點更實用。

如果你最近也在看代理工作流，可以一起讀我們之前的 AI 代理實戰指南與 MCP 與 Agentic AI 實用指南。Nemotron 3 Super 其實正好落在這兩類系統最在意的模型層。

性能數字有多激進

這次最吸睛的，還是 NVIDIA 給出的吞吐和推理效率數字。

根據 NVIDIA Research 頁面與技術報告，在 8K 輸入、16K 輸出的測試設定下，Nemotron 3 Super 的推理吞吐量最高可達：

相比 GPT-OSS-120B 提高 2.2 倍
相比 Qwen3.5-122B 提高 7.5 倍

NVIDIA 官方新聞稿式部落格則給了另一組更易懂的口徑：相較前代 Nemotron Super，Nemotron 3 Super 在某些場景下可提供最高 5 倍吞吐與最高 2 倍精度提升。

第三方機構 Artificial Analysis 也在 3 月 11 日做了快速評估。它給出的觀察比較保守，但也更接近外部視角：Nemotron 3 Super 的綜合能力位置高於 GPT-OSS-120B，但還未超過更強版本的 Qwen 3.5 122B A10B。換句話說，它不是「全面封神」，但在開放權重模型裡，已經很有競爭力，而且效率尤其突出。

技術上它做了哪些事

從官方技術材料來看，Nemotron 3 Super 不是靠單一技巧硬推上去，而是把幾個方向一起堆疊起來。

1. NVFP4 預訓練

NVIDIA 把 NVFP4 放進預訓練流程，這是 Blackwell 平台上一個關鍵訊號。官方表示，在 Blackwell 上用 NVFP4 推理，最高可比 Hopper 上的 FP8 快 4 倍。這也說明 Nemotron 3 Super 不只是模型發布，本質上也是 NVIDIA 自家硬體路線的示範作。

2. LatentMoE

LatentMoE 的目標很直接：保留 MoE 架構的效率優勢，但讓長上下文與高吞吐場景更可控。對企業來說，這種技術不一定會直接寫進採購決策，但最終會反映在推理成本和服務延遲上。

3. MTP 與混合 Mamba-Transformer

MTP（多 token 預測）與 Hybrid Mamba-Attention 的組合，明顯是在為長輸出和代理執行鏈設計。這類工作負載不是回答一句話就結束，而是要產生長段推理、計畫、程式碼、工具調用記錄，所以生成速度很容易成為瓶頸。

誰已經在用

NVIDIA 沒把 Nemotron 3 Super 包裝成一個「研究室展示品」。官方列出的合作與採用名單包括 Perplexity、CodeRabbit、Factory、Greptile、Palantir、Cadence 與 Siemens。

這份名單透露出一個很清楚的方向。Nemotron 3 Super 想切進的不是聊天機器人首頁，而是實際跑在程式碼審查、企業工程、工業軟體與知識工作流後台的那一層。這種路線未必最熱鬧，但往往更接近付費場景。

我們怎麼看這件事

我覺得這次發布最有意思的地方，不是 NVIDIA 做了一個更大的開源模型，而是它把「開放權重 + 長上下文 + 高吞吐 + 代理工作流」綁成同一個產品敘事。這比單純追求最強通用模型更務實。

當前市場上，很多模型都能做 demo，但一旦進入真實 agent 系統，問題就不是它會不會推理，而是它能不能在夠長的上下文裡持續推理，還別把延遲和 GPU 帳單拉爆。Nemotron 3 Super 至少正面回應了這個矛盾。

當然，官方 benchmark 永遠要打點折扣。真正的分水嶺還是外部部署結果，包括不同框架下的穩定性、工具調用成功率，以及長任務中的錯誤累積速度。不過就 2026 年 3 月這個時間點來看，Nemotron 3 Super 已經足夠成為開放模型陣營裡最值得追的一個新變量。

NVIDIA 發布 Nemotron 3 Super：120B 開源推理模型，直指 Agentic AI 落地

這次發布了什麼

為什麼它被拿來打 Agentic AI

性能數字有多激進

技術上它做了哪些事

1. NVFP4 預訓練

2. LatentMoE

3. MTP 與混合 Mamba-Transformer

誰已經在用

我們怎麼看這件事

參考來源

分享文章

留言評論

相關文章

AI 最新資訊週報：3 月第二週最值得看的 5 條官方更新

DeepSeek V4 打破慣例：拒絕 Nvidia、AMD，優先華為適配

微軟把 Copilot 推向「代理時代」：Wave 3、Agent 365 與 Frontier Suite 到底意味著什麼？