Qwen3-Max-Thinking 深度解析:阿里如何用 1T 參數與「測試時擴展」改寫 2026 年的 AI 版圖
阿里雲正式發布 Qwen3-Max-Thinking,參數突破萬億,預訓練數據達 36T Tokens。本文深入剖析其核心的「測試時擴展」機制、HLE 基準測試的統治級表現,並提供開發者視角的實戰 API 調用指南與成本分析。
2026 年 1 月 26 日,这是一个值得关注的日子。
昨晚,当大多数人还在讨论 GPT-5.2 的余波时,阿里云发布了 Qwen3-Max-Thinking。
这不仅仅是一次版本号的迭代。1 万亿(1T)参数、36T Tokens 的预训练数据量,这些数字直接将开源与闭源模型的竞争拉到了一个全新的维度。更重要的是,它在「人类最后的测试」(HLE)中击败了 GPT-5.2-Thinking 和 Gemini 3 Pro。
本文将分析 Qwen3-Max-Thinking 的核心技术、基准测试表现,以及开发者如何使用这个模型。
核心突破:不只是「大」,而是「深」
在 2024 年与 2025 年,见证了「Scaling Law」(规模定律)的边际效应递减。单纯增加参数似乎不再是万灵丹。然而,Qwen3-Max-Thinking 似乎找到了一条新路。
1. 数据与参数的规模
Qwen3-Max-Thinking 的规格令人咋舌:
- 参数规模:> 1 Trillion (1T)。这是真正的「万亿俱乐部」。
- 预训练数据:36T Tokens。
这意味着什么?36T Tokens 几乎涵盖了人类互联网上所有高质量的文本、代码和数学数据,甚至可能包含了大量高质量的合成数据(Synthetic Data)。在 1T 参数的支撑下,模型的「世界模型」分辨率达到了前所未有的精度。
2. 殺手鐧:測試時擴展 (Test-time Scaling)
這才是這次發布真正的核心。
傳統的推理(Inference)是線性的:輸入 Prompt -> 模型預測下一個 Token。 而 Qwen3-Max-Thinking 引入了全新的測試時擴展機制。
傳統並行推理 vs. Qwen 的策略
- 傳統做法:簡單增加並行推理路徑(Majority Voting),即「三個臭皮匠,頂個諸葛亮」。這種方法效率低下,容易重複錯誤。
- Qwen 的做法:經驗提取式迭代。模型在推理過程中,會對中間結果進行「提煉」,提取出成功的推理路徑,並據此進行多輪自我迭代。
簡單來說,Qwen3-Max-Thinking 不只是在「回答」,它在**「打草稿」**。它會在內部進行多輪的假設、驗證、修正,最後才輸出結果。這就是為什麼它被稱為 “Thinking” 模型。
📊 基準測試:HLE 的統治力
數據不會說謊,尤其是當對手是 GPT-5.2 和 Gemini 3 Pro 時。
在涵蓋事實知識、複雜推理、Agent 能力等 19 個基準測試中,Qwen3 刷新了 SOTA(State of the Art)。其中最引人注目的是 HLE (Humanity’s Last Exam) —— 一個專門設計用來難倒 AI 的超高難度測試集。
| 模型 | HLE 得分 | 備註 |
|---|---|---|
| Qwen3-Max-Thinking | 58.3 | 🚀 Current SOTA |
| Gemini 3 Pro | 45.8 |
分享文章
留言評論
0 則評論暫無評論,搶先發表你的看法吧!
相關文章
代碼裡的秘密:DeepSeek 新架構「MODEL1」深度解讀與 V4 預測
DeepSeek 的 GitHub 代碼庫悄然更新,洩露了神秘的「MODEL1」標識符。這不僅僅是一個版本號的更迭,更預示著底層架構在 KV 緩存、稀疏性處理上的重大重構。本文將從代碼層面剖析這次洩露的技術細節,結合最新的 Engram 論文,預測即將到來的 DeepSeek V4 究竟有多強。
Kimi K2.5 深度解讀:當 AI 開始組建「軍隊」,單體智能還重要嗎?
Moonshot AI 發布 Kimi K2.5,引入「Agent Swarm」蜂群思維與視覺編程能力。本文深入剖析其並行強化學習(PARL)架構,並透過實戰代碼展示其視覺推理能力,探討從單體智能到群體智能的範式轉移。
當國家隊出手干預 AI 就業:解讀人社部 2026 新政背後的信號與生存指南
2026年開年,中國人社部宣佈將出台專門文件應對人工智能對就業的衝擊。這標誌著 AI 替代人類不再是科幻探討,而是進入了政策干預的實質階段。本文深度解析政策背後的邏輯,揭示「複合型人才」的真實含義,並提供開發者與職場人的技術生存實戰代碼。