SynapseWire

NVIDIA 發布 Nemotron 3 Super:120B 開源推理模型,直指 Agentic AI 落地

NVIDIA 於 2026 年 3 月 11 日發布 Nemotron 3 Super。這款 120B 參數、12B 激活的開源模型主打 1M 上下文、混合 Mamba-Transformer 與更高推理吞吐,目標很明確:把多智能體與長任務工作流真正推進生產環境。

作者: SynapseWire 編輯部 發布於:
Nemotron 3 Super 概念封面,呈現晶片、推理代理與超長上下文視覺元素

NVIDIA 在 2026 年 3 月 11 日正式推出 Nemotron 3 Super。如果只看一句話,這是一款為 agentic AI 和長流程推理而生的開源大模型。它採用 120B 總參數、12B 激活參數設計,支援最長 1M token 上下文,並把 LatentMoE、MTP、NVFP4 與混合 Mamba-Transformer 架構放進同一條產品線。

這次發布值得留意,不只是因為規格大。更重要的是,NVIDIA 明顯在回答一個現在所有團隊都碰到的現實問題:當 AI 開始同時調多個工具、處理更長程式碼上下文、或者讓多個 agent 協作時,延遲、吞吐和成本很快就會把體驗拖垮。Nemotron 3 Super 就是朝這個瓶頸來的。

這次發布了什麼

根據 NVIDIA 官方部落格、研究頁面與 model card,Nemotron 3 Super 的核心規格包括:

  • 120B 總參數,12B 激活參數
  • 最長 1M token 上下文窗口
  • 混合 Mamba-Transformer 與 LatentMoE 架構
  • 原生針對 agentic reasoning、tool use、RAG 工作流優化
  • 支援商用,並同步釋出權重、技術報告、訓練配方與資料集

這種配置很像 NVIDIA 對市場需求做出的直接回應。現在很多團隊不缺模型,缺的是一個在長上下文、多步驟任務裡還能跑得夠快、夠穩、夠便宜的模型。

為什麼它被拿來打 Agentic AI

NVIDIA 在官方說法裡反覆提到兩個麻煩:context explosionthinking tax。前者很好理解,任務一旦從單輪問答變成代理工作流,token 量會暴增;後者則是模型在複雜推理時,計算開銷和等待時間也跟著膨脹。

Nemotron 3 Super 的設計基本就是圍著這兩件事轉。1M 上下文讓模型更適合直接吃進大型程式碼庫、長文檔或多輪工具記錄;12B active 的設計則試圖把推理成本壓在較低水平。對需要做程式碼代理、企業知識檢索、工單分析或安全事件分類的團隊來說,這比單純把 benchmark 再往上推一點更實用。

如果你最近也在看代理工作流,可以一起讀我們之前的 AI 代理實戰指南MCP 與 Agentic AI 實用指南。Nemotron 3 Super 其實正好落在這兩類系統最在意的模型層。

性能數字有多激進

這次最吸睛的,還是 NVIDIA 給出的吞吐和推理效率數字。

根據 NVIDIA Research 頁面與技術報告,在 8K 輸入、16K 輸出的測試設定下,Nemotron 3 Super 的推理吞吐量最高可達:

  • 相比 GPT-OSS-120B 提高 2.2 倍
  • 相比 Qwen3.5-122B 提高 7.5 倍

NVIDIA 官方新聞稿式部落格則給了另一組更易懂的口徑:相較前代 Nemotron Super,Nemotron 3 Super 在某些場景下可提供最高 5 倍吞吐與最高 2 倍精度提升。

第三方機構 Artificial Analysis 也在 3 月 11 日做了快速評估。它給出的觀察比較保守,但也更接近外部視角:Nemotron 3 Super 的綜合能力位置高於 GPT-OSS-120B,但還未超過更強版本的 Qwen 3.5 122B A10B。換句話說,它不是「全面封神」,但在開放權重模型裡,已經很有競爭力,而且效率尤其突出。

技術上它做了哪些事

從官方技術材料來看,Nemotron 3 Super 不是靠單一技巧硬推上去,而是把幾個方向一起堆疊起來。

1. NVFP4 預訓練

NVIDIA 把 NVFP4 放進預訓練流程,這是 Blackwell 平台上一個關鍵訊號。官方表示,在 Blackwell 上用 NVFP4 推理,最高可比 Hopper 上的 FP8 快 4 倍。這也說明 Nemotron 3 Super 不只是模型發布,本質上也是 NVIDIA 自家硬體路線的示範作。

2. LatentMoE

LatentMoE 的目標很直接:保留 MoE 架構的效率優勢,但讓長上下文與高吞吐場景更可控。對企業來說,這種技術不一定會直接寫進採購決策,但最終會反映在推理成本和服務延遲上。

3. MTP 與混合 Mamba-Transformer

MTP(多 token 預測)與 Hybrid Mamba-Attention 的組合,明顯是在為長輸出和代理執行鏈設計。這類工作負載不是回答一句話就結束,而是要產生長段推理、計畫、程式碼、工具調用記錄,所以生成速度很容易成為瓶頸。

誰已經在用

NVIDIA 沒把 Nemotron 3 Super 包裝成一個「研究室展示品」。官方列出的合作與採用名單包括 Perplexity、CodeRabbit、Factory、Greptile、Palantir、Cadence 與 Siemens。

這份名單透露出一個很清楚的方向。Nemotron 3 Super 想切進的不是聊天機器人首頁,而是實際跑在程式碼審查、企業工程、工業軟體與知識工作流後台的那一層。這種路線未必最熱鬧,但往往更接近付費場景。

我們怎麼看這件事

我覺得這次發布最有意思的地方,不是 NVIDIA 做了一個更大的開源模型,而是它把「開放權重 + 長上下文 + 高吞吐 + 代理工作流」綁成同一個產品敘事。這比單純追求最強通用模型更務實。

當前市場上,很多模型都能做 demo,但一旦進入真實 agent 系統,問題就不是它會不會推理,而是它能不能在夠長的上下文裡持續推理,還別把延遲和 GPU 帳單拉爆。Nemotron 3 Super 至少正面回應了這個矛盾。

當然,官方 benchmark 永遠要打點折扣。真正的分水嶺還是外部部署結果,包括不同框架下的穩定性、工具調用成功率,以及長任務中的錯誤累積速度。不過就 2026 年 3 月這個時間點來看,Nemotron 3 Super 已經足夠成為開放模型陣營裡最值得追的一個新變量。

參考來源

  1. NVIDIA Blog: Introducing NVIDIA Nemotron 3 Super for Building Agentic AI Systems
  2. NVIDIA Developer Blog: Introducing Nemotron-3 Super, an Open Hybrid Mamba Transformer MoE for Agentic Reasoning
  3. NVIDIA Research: Nemotron-3 Super
  4. NVIDIA Build Model Card: Nemotron-3-Super-120B-A12B
  5. NVIDIA Technical Report PDF: NVIDIA Nemotron-3 Super
  6. Artificial Analysis: Nvidia Nemotron 3 Super, The New Leader in Open Efficient Intelligence?

分享文章

留言評論

0 則評論

暫無評論,搶先發表你的看法吧!

相關文章