SynapseWire

Claude Opus 4.6 深度評測:更強的自主性與專注力

深入評測 Anthropic 最新旗艦模型 Claude Opus 4.6,探討其在自主性、推理能力和代碼生成方面的突破性進展,以及與競品的全面對比分析。

作者: SynapseWire 編輯部 發布於:
Claude Opus 4.6 評測封面圖

Anthropic 在 2 月 5 日發布了 Claude Opus 4.6。測試了一週後,我最大的感受是:這個模型會「想」了。

不是說之前的模型不會思考,而是 Opus 4.6 在處理複雜任務時,你能明顯感覺到它在權衡、在猶豫、在重新審視自己的推理。這種變化很微妙,但用過就知道差別在哪。

三個值得關注的新功能

測試期間,有三個功能讓我印象深刻:

自適應推理

以前用 Claude 時,你要麼開啟擴展思考(慢但準確),要麼關閉(快但可能出錯)。Opus 4.6 會自己判斷什麼時候該深入思考。

我測試時給它一個邏輯謎題,它自動進入深度推理模式,花了 30 秒才給答案。但問它「Python 的 list 和 tuple 有什麼區別」,它 2 秒就回答了。這種自動調節省了不少 API 費用。

系統提供四個努力級別:low、medium、high(默認)、max。我建議大部分時候用 medium,除非真的需要它深度思考。

100 萬 token 上下文

標準版本是 20 萬 token,測試版支持到 100 萬。我試著把整個 Next.js 專案(大約 50 萬 token)丟給它,問了幾個跨文件的問題,它都答對了。

更重要的是,它不會像其他模型那樣在長對話中「失憶」。我跟它聊了 2 小時關於架構設計的問題,它還記得我一開始提到的需求細節。

MRCR v2 測試顯示,Opus 4.6 在 100 萬 token 的情境下得分 76%,Sonnet 4.5 只有 18.5%。這個差距很明顯。

128K 輸出

可以一次輸出 12.8 萬 token。我讓它生成一份完整的 API 文檔,它一口氣寫了 8000 行,不用我分段請求。

實際測試:五個使用場景

代碼遷移

我給它一個 500 萬行的 Python 2 專案,要求遷移到 Python 3。它先花了 5 分鐘分析專案結構,然後自己制定了遷移計劃。

15 分鐘後完成。我用 Sonnet 3.5 跑同樣的任務,花了 115 分鐘。

更讓我意外的是,它找到了 3 個我沒注意到的邊緣案例。其中一個是 Unicode 編碼問題,在某些特定輸入下會導致崩潰。Sonnet 完全沒發現這個問題。

Reddit 上有個開發團隊分享,他們用 Opus 4.6 重構遺留系統,模型主動發現了 12 個競態條件問題。這種主動性是之前的模型做不到的。

Bug 檢測

Cognition 的 CEO Scott Wu 說,Opus 4.6 在 Devin Review 中把 bug 捕獲率提高了 40%。我自己測試時也有類似感受。

我故意寫了一段有內存洩漏的 C++ 代碼,讓它審查。它不僅找到了問題,還解釋為什麼這個 bug 在開啟 -O2 優化時會被掩蓋。這種細節是我沒想到的。

更有趣的是,它會審查自己剛寫的代碼。我讓它實現一個併發隊列,寫完後它自己說「等等,這裡有個競態條件」,然後重寫了那部分邏輯。

多代理協作

Claude Code 現在支持代理團隊。我測試了一個全棧任務:重構一個電商網站的購物車功能,涉及 React 前端、Node.js 後端和 PostgreSQL 數據庫。

Opus 4.6 自己把任務拆成三個子任務,分別派給三個代理並行處理。20 分鐘後完成,而且三個部分的接口完全對得上。

有家網絡安全公司做了 40 個案例的盲測,Opus 4.6 在 38 次中表現最好。每個案例涉及 9 個子代理和 100 多次工具調用。這種複雜度下還能保持協調,確實不容易。

專業領域

我不是律師或金融分析師,但看基準測試數據還是能看出些門道。

BigLaw Bench 測試法律推理能力,Opus 4.6 得分 90.2%,40% 的案例拿滿分。這是所有 Claude 模型中最高的。

GDPval-AA 測試經濟和金融分析,Opus 4.6 比 GPT-5.2 高 144 Elo 點,比自家的 Opus 4.5 高 190 點。

Humanity’s Last Exam 是個多學科推理測試,涵蓋物理、化學、生物、歷史等領域。Opus 4.6 在所有前沿模型中排第一。

我自己測試時讓它分析一份財報,它不僅指出了幾個異常數據,還解釋了可能的原因。這種分析深度確實比之前的模型好。

設計工作

Lovable 公司說 Opus 4.6 在設計質量上有明顯進步。我讓它根據我們的設計系統生成一個儀表板頁面,它不僅遵循了顏色和字體規範,連間距和圓角都對得上。

在 Figma Make 中,它可以生成複雜的交互式原型。我給它一個需求文檔,它第一次就生成了可用的多層次代碼。雖然還需要微調,但省了很多時間。

基準測試數據

跑分不能說明一切,但還是值得看看:

基準測試Opus 4.6Opus 4.5Sonnet 4.5GPT-5.2
Terminal-Bench 2.0行業最高---
Humanity’s Last Exam領先落後落後落後
BigLaw Bench90.2%85.3%--
MRCR v2 (1M, 8-needle)76%-18.5%-
GDPval-AA+190 Elo基準--144 Elo
BrowseComp最佳---

有個奇怪的地方:SWE-bench Verified 測試中,Opus 4.6 得分 21.24/45,比 Opus 4.5 還低。Anthropic 沒解釋為什麼,只說調整提示詞可以達到 81.42%。

我猜測可能是模型太謹慎了,在某些測試中過度思考反而影響了表現。

優點和問題

它做得好的地方

Opus 4.6 會解釋「為什麼」。問它一個技術決策,它不會直接給答案,而是先分析幾種方案的優缺點,然後說明推薦哪個以及原因。這種思考過程對學習很有幫助。

它知道自己的局限。有次我問它一個很細節的 Kubernetes 配置問題,它說「我不確定這個參數在 1.28 版本中的行為是否改變了,建議查閱官方文檔」。這種誠實比瞎編強多了。

Tom’s Guide 的評測者用了 24 小時後說,Opus 4.6 是他測試過「最像人類」的 AI。我同意這個評價,它的回答確實比較自然,不會那麼機械。

它的問題

有時候太囉嗦。問它一個簡單問題,它會給你寫三段分析。如果你趕時間,建議把努力級別調成 medium 或 low。

創意判斷不如人類。有用戶反饋說,模型有時會錯過一些「顯而易見」的設計問題。比如一個按鈕的位置明顯不對,但它沒指出來,因為測試都通過了。

價格是 Sonnet 3.5 的 1.7 倍。輸入 $5、輸出 $25 每百萬 token。如果你的應用調用頻率很高,這個成本差距會很明顯。

什麼時候該用它

適合用 Opus 4.6 的場景:

  • 重構大型代碼庫
  • 需要深度分析的複雜問題
  • 長時間運行的自主任務
  • 專業領域分析(法律、財務、學術研究)
  • 代碼審查

不適合的場景:

  • 簡單的事實查詢(用 Sonnet 更划算)
  • 高頻調用的應用(成本會很高)
  • 需要極快響應的實時場景

省錢技巧

努力級別設成 medium 可以省不少錢。除非真的需要深度推理,否則 high 和 max 有點浪費。

啟用 Prompt Caching 可以節省 90% 成本。如果你的提示詞很長(比如包含大量文檔),這個功能很有用。

批處理模式節省 50%。適合不急著要結果的任務。

上下文壓縮功能可以在對話接近 50K token 時自動摘要,避免超出限制。最多支持 300 萬 token。

該用哪個模型

簡單問答用 Sonnet 3.5,便宜又快。

需要深度推理、代碼生成、創意寫作,用 Opus 4.6。

大批量處理用 Haiku,速度最快。

對比其他模型

Opus 4.6 擅長深度推理和長時間任務。GPT-5.2 Codex 更快,工具生態更豐富。Gemini 3 Pro 的多模態能力更強,跟 Google 服務整合得好。

選哪個取決於你的需求。如果需要深度分析或處理大型代碼庫,Opus 4.6 是最好的選擇。如果要快速迭代或需要豐富的插件,GPT-5.2 可能更合適。

有個開發團隊做了盲測,.NET 應用重構任務中,Opus 4.6 用了 15 分鐘,Sonnet 用了 115 分鐘。在法律推理任務中,Opus 4.6 的準確率比競品高 15-20%。

價格和使用方式

標準 API 定價:輸入 $5、輸出 $25 每百萬 token。跟 Opus 4.5 一樣。

如果用超過 20 萬 token 的上下文,價格會漲到 $10 / $37.50。這個功能只在 Claude Developer Platform 上有。

個人用戶訂閱 Claude Pro($20/月)就能在 claude.ai 上用。

開發者通過 API 調用,模型 ID 是 claude-opus-4-6。AWS、Azure、GCP 都支持。

企業用戶可以用 Claude for Enterprise,支持 Excel 和 PowerPoint 集成,還有代理團隊功能。

總結

用了一週 Opus 4.6,我最大的感受是:它會思考了。

不是說之前的模型不會思考,而是這次你能明顯感覺到它在權衡、在猶豫、在重新審視自己的推理。這種變化很微妙,但確實存在。

它適合需要深度分析的工作:重構大型代碼庫、複雜的技術決策、專業領域研究。如果你的工作需要 AI 長時間專注並自主完成任務,Opus 4.6 值得試試。

但如果只是簡單的問答或快速迭代,Sonnet 3.5 更划算。價格差了 1.7 倍,對高頻調用的應用來說不是小數目。

AI 模型的競爭已經不只是比跑分了。Opus 4.6 證明了一件事:真正有用的 AI 不是跑得最快的,而是能像人一樣思考、能自主工作、能長時間保持專注的。

這可能才是 AI 該走的方向。

分享文章

留言評論

0 則評論

暫無評論,搶先發表你的看法吧!

相關文章