Claude Opus 4.6 深度評測：更強的自主性與專注力

Anthropic 在 2 月 5 日發布了 Claude Opus 4.6。測試了一週後，我最大的感受是：這個模型會「想」了。

不是說之前的模型不會思考，而是 Opus 4.6 在處理複雜任務時，你能明顯感覺到它在權衡、在猶豫、在重新審視自己的推理。這種變化很微妙，但用過就知道差別在哪。

三個值得關注的新功能

測試期間，有三個功能讓我印象深刻：

自適應推理

以前用 Claude 時，你要麼開啟擴展思考（慢但準確），要麼關閉（快但可能出錯）。Opus 4.6 會自己判斷什麼時候該深入思考。

我測試時給它一個邏輯謎題，它自動進入深度推理模式，花了 30 秒才給答案。但問它「Python 的 list 和 tuple 有什麼區別」，它 2 秒就回答了。這種自動調節省了不少 API 費用。

系統提供四個努力級別：low、medium、high（默認）、max。我建議大部分時候用 medium，除非真的需要它深度思考。

100 萬 token 上下文

標準版本是 20 萬 token，測試版支持到 100 萬。我試著把整個 Next.js 專案（大約 50 萬 token）丟給它，問了幾個跨文件的問題，它都答對了。

更重要的是，它不會像其他模型那樣在長對話中「失憶」。我跟它聊了 2 小時關於架構設計的問題，它還記得我一開始提到的需求細節。

MRCR v2 測試顯示，Opus 4.6 在 100 萬 token 的情境下得分 76%，Sonnet 4.5 只有 18.5%。這個差距很明顯。

128K 輸出

可以一次輸出 12.8 萬 token。我讓它生成一份完整的 API 文檔，它一口氣寫了 8000 行，不用我分段請求。

實際測試：五個使用場景

代碼遷移

我給它一個 500 萬行的 Python 2 專案，要求遷移到 Python 3。它先花了 5 分鐘分析專案結構，然後自己制定了遷移計劃。

15 分鐘後完成。我用 Sonnet 3.5 跑同樣的任務，花了 115 分鐘。

更讓我意外的是，它找到了 3 個我沒注意到的邊緣案例。其中一個是 Unicode 編碼問題，在某些特定輸入下會導致崩潰。Sonnet 完全沒發現這個問題。

Reddit 上有個開發團隊分享，他們用 Opus 4.6 重構遺留系統，模型主動發現了 12 個競態條件問題。這種主動性是之前的模型做不到的。

Bug 檢測

Cognition 的 CEO Scott Wu 說，Opus 4.6 在 Devin Review 中把 bug 捕獲率提高了 40%。我自己測試時也有類似感受。

我故意寫了一段有內存洩漏的 C++ 代碼，讓它審查。它不僅找到了問題，還解釋為什麼這個 bug 在開啟 -O2 優化時會被掩蓋。這種細節是我沒想到的。

更有趣的是，它會審查自己剛寫的代碼。我讓它實現一個併發隊列，寫完後它自己說「等等，這裡有個競態條件」，然後重寫了那部分邏輯。

多代理協作

Claude Code 現在支持代理團隊。我測試了一個全棧任務：重構一個電商網站的購物車功能，涉及 React 前端、Node.js 後端和 PostgreSQL 數據庫。

Opus 4.6 自己把任務拆成三個子任務，分別派給三個代理並行處理。20 分鐘後完成，而且三個部分的接口完全對得上。

有家網絡安全公司做了 40 個案例的盲測，Opus 4.6 在 38 次中表現最好。每個案例涉及 9 個子代理和 100 多次工具調用。這種複雜度下還能保持協調，確實不容易。

專業領域

我不是律師或金融分析師，但看基準測試數據還是能看出些門道。

BigLaw Bench 測試法律推理能力，Opus 4.6 得分 90.2%，40% 的案例拿滿分。這是所有 Claude 模型中最高的。

GDPval-AA 測試經濟和金融分析，Opus 4.6 比 GPT-5.2 高 144 Elo 點，比自家的 Opus 4.5 高 190 點。

Humanity’s Last Exam 是個多學科推理測試，涵蓋物理、化學、生物、歷史等領域。Opus 4.6 在所有前沿模型中排第一。

我自己測試時讓它分析一份財報，它不僅指出了幾個異常數據，還解釋了可能的原因。這種分析深度確實比之前的模型好。

設計工作

Lovable 公司說 Opus 4.6 在設計質量上有明顯進步。我讓它根據我們的設計系統生成一個儀表板頁面，它不僅遵循了顏色和字體規範，連間距和圓角都對得上。

在 Figma Make 中，它可以生成複雜的交互式原型。我給它一個需求文檔，它第一次就生成了可用的多層次代碼。雖然還需要微調，但省了很多時間。

基準測試數據

跑分不能說明一切，但還是值得看看：

基準測試	Opus 4.6	Opus 4.5	Sonnet 4.5	GPT-5.2
Terminal-Bench 2.0	行業最高	-	-	-
Humanity’s Last Exam	領先	落後	落後	落後
BigLaw Bench	90.2%	85.3%	-	-
MRCR v2 (1M, 8-needle)	76%	-	18.5%	-
GDPval-AA	+190 Elo	基準	-	-144 Elo
BrowseComp	最佳	-	-	-

有個奇怪的地方：SWE-bench Verified 測試中，Opus 4.6 得分 21.24/45，比 Opus 4.5 還低。Anthropic 沒解釋為什麼，只說調整提示詞可以達到 81.42%。

我猜測可能是模型太謹慎了，在某些測試中過度思考反而影響了表現。

優點和問題

它做得好的地方

Opus 4.6 會解釋「為什麼」。問它一個技術決策，它不會直接給答案，而是先分析幾種方案的優缺點，然後說明推薦哪個以及原因。這種思考過程對學習很有幫助。

它知道自己的局限。有次我問它一個很細節的 Kubernetes 配置問題，它說「我不確定這個參數在 1.28 版本中的行為是否改變了，建議查閱官方文檔」。這種誠實比瞎編強多了。

Tom’s Guide 的評測者用了 24 小時後說，Opus 4.6 是他測試過「最像人類」的 AI。我同意這個評價，它的回答確實比較自然，不會那麼機械。

它的問題

有時候太囉嗦。問它一個簡單問題，它會給你寫三段分析。如果你趕時間，建議把努力級別調成 medium 或 low。

創意判斷不如人類。有用戶反饋說，模型有時會錯過一些「顯而易見」的設計問題。比如一個按鈕的位置明顯不對，但它沒指出來，因為測試都通過了。

價格是 Sonnet 3.5 的 1.7 倍。輸入 $5、輸出 $25 每百萬 token。如果你的應用調用頻率很高，這個成本差距會很明顯。

什麼時候該用它

適合用 Opus 4.6 的場景：

重構大型代碼庫
需要深度分析的複雜問題
長時間運行的自主任務
專業領域分析（法律、財務、學術研究）
代碼審查

不適合的場景：

簡單的事實查詢（用 Sonnet 更划算）
高頻調用的應用（成本會很高）
需要極快響應的實時場景

省錢技巧

努力級別設成 medium 可以省不少錢。除非真的需要深度推理，否則 high 和 max 有點浪費。

啟用 Prompt Caching 可以節省 90% 成本。如果你的提示詞很長（比如包含大量文檔），這個功能很有用。

批處理模式節省 50%。適合不急著要結果的任務。

上下文壓縮功能可以在對話接近 50K token 時自動摘要，避免超出限制。最多支持 300 萬 token。

該用哪個模型

簡單問答用 Sonnet 3.5，便宜又快。

需要深度推理、代碼生成、創意寫作，用 Opus 4.6。

大批量處理用 Haiku，速度最快。

對比其他模型

Opus 4.6 擅長深度推理和長時間任務。GPT-5.2 Codex 更快，工具生態更豐富。Gemini 3 Pro 的多模態能力更強，跟 Google 服務整合得好。

選哪個取決於你的需求。如果需要深度分析或處理大型代碼庫，Opus 4.6 是最好的選擇。如果要快速迭代或需要豐富的插件，GPT-5.2 可能更合適。

有個開發團隊做了盲測，.NET 應用重構任務中，Opus 4.6 用了 15 分鐘，Sonnet 用了 115 分鐘。在法律推理任務中，Opus 4.6 的準確率比競品高 15-20%。

價格和使用方式

標準 API 定價：輸入 $5、輸出 $25 每百萬 token。跟 Opus 4.5 一樣。

如果用超過 20 萬 token 的上下文，價格會漲到 $10 / $37.50。這個功能只在 Claude Developer Platform 上有。

個人用戶訂閱 Claude Pro（$20/月）就能在 claude.ai 上用。

開發者通過 API 調用，模型 ID 是 claude-opus-4-6。AWS、Azure、GCP 都支持。

企業用戶可以用 Claude for Enterprise，支持 Excel 和 PowerPoint 集成，還有代理團隊功能。

總結

用了一週 Opus 4.6，我最大的感受是：它會思考了。

不是說之前的模型不會思考，而是這次你能明顯感覺到它在權衡、在猶豫、在重新審視自己的推理。這種變化很微妙，但確實存在。

它適合需要深度分析的工作：重構大型代碼庫、複雜的技術決策、專業領域研究。如果你的工作需要 AI 長時間專注並自主完成任務，Opus 4.6 值得試試。

但如果只是簡單的問答或快速迭代，Sonnet 3.5 更划算。價格差了 1.7 倍，對高頻調用的應用來說不是小數目。

AI 模型的競爭已經不只是比跑分了。Opus 4.6 證明了一件事：真正有用的 AI 不是跑得最快的，而是能像人一樣思考、能自主工作、能長時間保持專注的。

這可能才是 AI 該走的方向。