Claude Opus 4.6 深度評測:更強的自主性與專注力
深入評測 Anthropic 最新旗艦模型 Claude Opus 4.6,探討其在自主性、推理能力和代碼生成方面的突破性進展,以及與競品的全面對比分析。
Anthropic 在 2 月 5 日發布了 Claude Opus 4.6。測試了一週後,我最大的感受是:這個模型會「想」了。
不是說之前的模型不會思考,而是 Opus 4.6 在處理複雜任務時,你能明顯感覺到它在權衡、在猶豫、在重新審視自己的推理。這種變化很微妙,但用過就知道差別在哪。
三個值得關注的新功能
測試期間,有三個功能讓我印象深刻:
自適應推理
以前用 Claude 時,你要麼開啟擴展思考(慢但準確),要麼關閉(快但可能出錯)。Opus 4.6 會自己判斷什麼時候該深入思考。
我測試時給它一個邏輯謎題,它自動進入深度推理模式,花了 30 秒才給答案。但問它「Python 的 list 和 tuple 有什麼區別」,它 2 秒就回答了。這種自動調節省了不少 API 費用。
系統提供四個努力級別:low、medium、high(默認)、max。我建議大部分時候用 medium,除非真的需要它深度思考。
100 萬 token 上下文
標準版本是 20 萬 token,測試版支持到 100 萬。我試著把整個 Next.js 專案(大約 50 萬 token)丟給它,問了幾個跨文件的問題,它都答對了。
更重要的是,它不會像其他模型那樣在長對話中「失憶」。我跟它聊了 2 小時關於架構設計的問題,它還記得我一開始提到的需求細節。
MRCR v2 測試顯示,Opus 4.6 在 100 萬 token 的情境下得分 76%,Sonnet 4.5 只有 18.5%。這個差距很明顯。
128K 輸出
可以一次輸出 12.8 萬 token。我讓它生成一份完整的 API 文檔,它一口氣寫了 8000 行,不用我分段請求。
實際測試:五個使用場景
代碼遷移
我給它一個 500 萬行的 Python 2 專案,要求遷移到 Python 3。它先花了 5 分鐘分析專案結構,然後自己制定了遷移計劃。
15 分鐘後完成。我用 Sonnet 3.5 跑同樣的任務,花了 115 分鐘。
更讓我意外的是,它找到了 3 個我沒注意到的邊緣案例。其中一個是 Unicode 編碼問題,在某些特定輸入下會導致崩潰。Sonnet 完全沒發現這個問題。
Reddit 上有個開發團隊分享,他們用 Opus 4.6 重構遺留系統,模型主動發現了 12 個競態條件問題。這種主動性是之前的模型做不到的。
Bug 檢測
Cognition 的 CEO Scott Wu 說,Opus 4.6 在 Devin Review 中把 bug 捕獲率提高了 40%。我自己測試時也有類似感受。
我故意寫了一段有內存洩漏的 C++ 代碼,讓它審查。它不僅找到了問題,還解釋為什麼這個 bug 在開啟 -O2 優化時會被掩蓋。這種細節是我沒想到的。
更有趣的是,它會審查自己剛寫的代碼。我讓它實現一個併發隊列,寫完後它自己說「等等,這裡有個競態條件」,然後重寫了那部分邏輯。
多代理協作
Claude Code 現在支持代理團隊。我測試了一個全棧任務:重構一個電商網站的購物車功能,涉及 React 前端、Node.js 後端和 PostgreSQL 數據庫。
Opus 4.6 自己把任務拆成三個子任務,分別派給三個代理並行處理。20 分鐘後完成,而且三個部分的接口完全對得上。
有家網絡安全公司做了 40 個案例的盲測,Opus 4.6 在 38 次中表現最好。每個案例涉及 9 個子代理和 100 多次工具調用。這種複雜度下還能保持協調,確實不容易。
專業領域
我不是律師或金融分析師,但看基準測試數據還是能看出些門道。
BigLaw Bench 測試法律推理能力,Opus 4.6 得分 90.2%,40% 的案例拿滿分。這是所有 Claude 模型中最高的。
GDPval-AA 測試經濟和金融分析,Opus 4.6 比 GPT-5.2 高 144 Elo 點,比自家的 Opus 4.5 高 190 點。
Humanity’s Last Exam 是個多學科推理測試,涵蓋物理、化學、生物、歷史等領域。Opus 4.6 在所有前沿模型中排第一。
我自己測試時讓它分析一份財報,它不僅指出了幾個異常數據,還解釋了可能的原因。這種分析深度確實比之前的模型好。
設計工作
Lovable 公司說 Opus 4.6 在設計質量上有明顯進步。我讓它根據我們的設計系統生成一個儀表板頁面,它不僅遵循了顏色和字體規範,連間距和圓角都對得上。
在 Figma Make 中,它可以生成複雜的交互式原型。我給它一個需求文檔,它第一次就生成了可用的多層次代碼。雖然還需要微調,但省了很多時間。
基準測試數據
跑分不能說明一切,但還是值得看看:
| 基準測試 | Opus 4.6 | Opus 4.5 | Sonnet 4.5 | GPT-5.2 |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 行業最高 | - | - | - |
| Humanity’s Last Exam | 領先 | 落後 | 落後 | 落後 |
| BigLaw Bench | 90.2% | 85.3% | - | - |
| MRCR v2 (1M, 8-needle) | 76% | - | 18.5% | - |
| GDPval-AA | +190 Elo | 基準 | - | -144 Elo |
| BrowseComp | 最佳 | - | - | - |
有個奇怪的地方:SWE-bench Verified 測試中,Opus 4.6 得分 21.24/45,比 Opus 4.5 還低。Anthropic 沒解釋為什麼,只說調整提示詞可以達到 81.42%。
我猜測可能是模型太謹慎了,在某些測試中過度思考反而影響了表現。
優點和問題
它做得好的地方
Opus 4.6 會解釋「為什麼」。問它一個技術決策,它不會直接給答案,而是先分析幾種方案的優缺點,然後說明推薦哪個以及原因。這種思考過程對學習很有幫助。
它知道自己的局限。有次我問它一個很細節的 Kubernetes 配置問題,它說「我不確定這個參數在 1.28 版本中的行為是否改變了,建議查閱官方文檔」。這種誠實比瞎編強多了。
Tom’s Guide 的評測者用了 24 小時後說,Opus 4.6 是他測試過「最像人類」的 AI。我同意這個評價,它的回答確實比較自然,不會那麼機械。
它的問題
有時候太囉嗦。問它一個簡單問題,它會給你寫三段分析。如果你趕時間,建議把努力級別調成 medium 或 low。
創意判斷不如人類。有用戶反饋說,模型有時會錯過一些「顯而易見」的設計問題。比如一個按鈕的位置明顯不對,但它沒指出來,因為測試都通過了。
價格是 Sonnet 3.5 的 1.7 倍。輸入 $5、輸出 $25 每百萬 token。如果你的應用調用頻率很高,這個成本差距會很明顯。
什麼時候該用它
適合用 Opus 4.6 的場景:
- 重構大型代碼庫
- 需要深度分析的複雜問題
- 長時間運行的自主任務
- 專業領域分析(法律、財務、學術研究)
- 代碼審查
不適合的場景:
- 簡單的事實查詢(用 Sonnet 更划算)
- 高頻調用的應用(成本會很高)
- 需要極快響應的實時場景
省錢技巧
努力級別設成 medium 可以省不少錢。除非真的需要深度推理,否則 high 和 max 有點浪費。
啟用 Prompt Caching 可以節省 90% 成本。如果你的提示詞很長(比如包含大量文檔),這個功能很有用。
批處理模式節省 50%。適合不急著要結果的任務。
上下文壓縮功能可以在對話接近 50K token 時自動摘要,避免超出限制。最多支持 300 萬 token。
該用哪個模型
簡單問答用 Sonnet 3.5,便宜又快。
需要深度推理、代碼生成、創意寫作,用 Opus 4.6。
大批量處理用 Haiku,速度最快。
對比其他模型
Opus 4.6 擅長深度推理和長時間任務。GPT-5.2 Codex 更快,工具生態更豐富。Gemini 3 Pro 的多模態能力更強,跟 Google 服務整合得好。
選哪個取決於你的需求。如果需要深度分析或處理大型代碼庫,Opus 4.6 是最好的選擇。如果要快速迭代或需要豐富的插件,GPT-5.2 可能更合適。
有個開發團隊做了盲測,.NET 應用重構任務中,Opus 4.6 用了 15 分鐘,Sonnet 用了 115 分鐘。在法律推理任務中,Opus 4.6 的準確率比競品高 15-20%。
價格和使用方式
標準 API 定價:輸入 $5、輸出 $25 每百萬 token。跟 Opus 4.5 一樣。
如果用超過 20 萬 token 的上下文,價格會漲到 $10 / $37.50。這個功能只在 Claude Developer Platform 上有。
個人用戶訂閱 Claude Pro($20/月)就能在 claude.ai 上用。
開發者通過 API 調用,模型 ID 是 claude-opus-4-6。AWS、Azure、GCP 都支持。
企業用戶可以用 Claude for Enterprise,支持 Excel 和 PowerPoint 集成,還有代理團隊功能。
總結
用了一週 Opus 4.6,我最大的感受是:它會思考了。
不是說之前的模型不會思考,而是這次你能明顯感覺到它在權衡、在猶豫、在重新審視自己的推理。這種變化很微妙,但確實存在。
它適合需要深度分析的工作:重構大型代碼庫、複雜的技術決策、專業領域研究。如果你的工作需要 AI 長時間專注並自主完成任務,Opus 4.6 值得試試。
但如果只是簡單的問答或快速迭代,Sonnet 3.5 更划算。價格差了 1.7 倍,對高頻調用的應用來說不是小數目。
AI 模型的競爭已經不只是比跑分了。Opus 4.6 證明了一件事:真正有用的 AI 不是跑得最快的,而是能像人一樣思考、能自主工作、能長時間保持專注的。
這可能才是 AI 該走的方向。
分享文章
留言評論
0 則評論暫無評論,搶先發表你的看法吧!
相關文章
2026年最佳AI工具排行:ChatGPT、Claude、Gemini深度橫評
ChatGPT、Claude、Gemini是2026年最受矚目的三大AI助手,但它們各有獨特的產品定位與優勢。本文深入比較這三款工具的功能、定價與適用場景,幫助你找到最適合的AI夥伴。
Claude Opus 4.6 深度評測:Anthropic 交出了一份怎樣的答卷?
Anthropic 最新旗艦模型 Claude Opus 4.6 帶來百萬 token 上下文與編碼能力飛躍,在多項評測中超越 GPT-5.2,但它真的值得升級嗎?
UI UX Pro Max:讓 AI 編碼助手擁有「設計師審美」的秘密武器
AI 寫代碼很快,但 UI 總是不太行?本文深度評測 UI UX Pro Max,這款專為 Claude Code 和 Cursor 打造的「設計智庫」Skill,如何讓前端開發者從「切圖仔」進化為「設計指揮官」。