SynapseWire

Qwen3-Max-Thinking 深度解析:阿里如何用 1T 參數與「測試時擴展」改寫 2026 年的 AI 版圖

阿里雲正式發布 Qwen3-Max-Thinking,參數突破萬億,預訓練數據達 36T Tokens。本文深入剖析其核心的「測試時擴展」機制、HLE 基準測試的統治級表現,並提供開發者視角的實戰 API 調用指南與成本分析。

作者: SynapseWire 編輯部 發布於:
Qwen3-Max-Thinking 概念圖,展示神經網絡與思考鏈路

2026 年 1 月 26 日,这是一个值得关注的日子。

昨晚,当大多数人还在讨论 GPT-5.2 的余波时,阿里云发布了 Qwen3-Max-Thinking

这不仅仅是一次版本号的迭代。1 万亿(1T)参数、36T Tokens 的预训练数据量,这些数字直接将开源与闭源模型的竞争拉到了一个全新的维度。更重要的是,它在「人类最后的测试」(HLE)中击败了 GPT-5.2-Thinking 和 Gemini 3 Pro。

本文将分析 Qwen3-Max-Thinking 的核心技术、基准测试表现,以及开发者如何使用这个模型。

核心突破:不只是「大」,而是「深」

在 2024 年与 2025 年,见证了「Scaling Law」(规模定律)的边际效应递减。单纯增加参数似乎不再是万灵丹。然而,Qwen3-Max-Thinking 似乎找到了一条新路。

1. 数据与参数的规模

Qwen3-Max-Thinking 的规格令人咋舌:

  • 参数规模:> 1 Trillion (1T)。这是真正的「万亿俱乐部」。
  • 预训练数据:36T Tokens。

这意味着什么?36T Tokens 几乎涵盖了人类互联网上所有高质量的文本、代码和数学数据,甚至可能包含了大量高质量的合成数据(Synthetic Data)。在 1T 参数的支撑下,模型的「世界模型」分辨率达到了前所未有的精度。

2. 殺手鐧:測試時擴展 (Test-time Scaling)

這才是這次發布真正的核心。

傳統的推理(Inference)是線性的:輸入 Prompt -> 模型預測下一個 Token。 而 Qwen3-Max-Thinking 引入了全新的測試時擴展機制

傳統並行推理 vs. Qwen 的策略

  • 傳統做法:簡單增加並行推理路徑(Majority Voting),即「三個臭皮匠,頂個諸葛亮」。這種方法效率低下,容易重複錯誤。
  • Qwen 的做法經驗提取式迭代。模型在推理過程中,會對中間結果進行「提煉」,提取出成功的推理路徑,並據此進行多輪自我迭代。

簡單來說,Qwen3-Max-Thinking 不只是在「回答」,它在**「打草稿」**。它會在內部進行多輪的假設、驗證、修正,最後才輸出結果。這就是為什麼它被稱為 “Thinking” 模型。

📊 基準測試:HLE 的統治力

數據不會說謊,尤其是當對手是 GPT-5.2 和 Gemini 3 Pro 時。

在涵蓋事實知識、複雜推理、Agent 能力等 19 個基準測試中,Qwen3 刷新了 SOTA(State of the Art)。其中最引人注目的是 HLE (Humanity’s Last Exam) —— 一個專門設計用來難倒 AI 的超高難度測試集。

模型HLE 得分備註
Qwen3-Max-Thinking58.3🚀 Current SOTA
Gemini 3 Pro45.8Google

分享文章

留言評論

0 則評論

暫無評論,搶先發表你的看法吧!

相關文章