Claude Opus 4.6 深度評測：Anthropic 交出了一份怎樣的答卷？

凌晨三點，我盯著螢幕上一段複雜的 Python 程式碼，這是一個多執行緒資料處理腳本，已經困擾我兩天了。我把整個專案的上下文（超過 80 萬 token）丟給 Claude Opus 4.6，然後問：「幫我找出效能瓶頸，並給出優化方案。」

三分鐘後，它精準定位了問題所在，還提供了三種不同的優化策略，每一種都附帶詳細的程式碼實作和效能預估。這不是我第一次被 AI 驚艷，但 Opus 4.6 的表現確實讓我重新思考：我們是否已經進入了一個新的 AI 能力階段？

開箱：百萬 token 不只是數字遊戲

Anthropic 在 2 月 5 日發布 Claude Opus 4.6 時，最吸睛的賣點是「100 萬 token 上下文窗口」。這聽起來像是一場軍備競賽的產物，但實際使用後，我發現這個數字背後的意義遠不止於此。

我測試了一個真實場景：將一個包含 15 個模組的中型 SaaS 專案（約 45 萬 token）完整載入，然後要求它進行架構重構建議。Opus 4.5 在這種情況下會開始「失憶」，經常忘記前面提到的模組依賴關係。而 4.6 記住了所有細節，還能在不同模組之間建立關聯，指出我自己都沒注意到的循環依賴問題。

這種長上下文能力的提升，讓 AI 從「程式碼助手」進化成「專案顧問」。它不再只是回答單一問題，而是能夠理解整個系統的運作邏輯。

編碼能力：Terminal-Bench 2.0 的王者

如果說長上下文是 Opus 4.6 的「廣度」，那麼編碼能力就是它的「深度」。在 Terminal-Bench 2.0 這個專門測試 Agentic 編碼能力的評測中，Opus 4.6 拿下了最高分 68.8%，幾乎是 Opus 4.5（37.6%）的兩倍，也明顯領先 GPT-5.2 Pro 的 54.2%。

這個數字意味著什麼？我用一個實際案例來說明。

我給 Opus 4.6 一個任務：「建立一個支援即時協作的 Markdown 編輯器，要求使用 WebSocket、支援衝突解決、並且要有版本歷史功能。」這是一個典型的多步驟、需要自主決策的 Agentic 任務。

Opus 4.6 的表現：

自主規劃：它先列出了技術棧選擇（Next.js + Socket.io + Yjs），並解釋為什麼選擇 Yjs 作為 CRDT 實作
分步實作：從後端 WebSocket 伺服器開始，逐步建構前端編輯器、衝突解決邏輯、版本控制系統
主動除錯：在實作過程中，它發現了一個潛在的記憶體洩漏問題，並主動修正
測試覆蓋：最後還生成了單元測試和整合測試

整個過程中，我只需要確認方向，幾乎不需要介入細節。這種「自主性」正是 Terminal-Bench 2.0 想要測試的核心能力。

相比之下，我用 GPT-5.2 做同樣的測試，它在第三步（衝突解決邏輯）時開始出現混亂，需要我多次提示才能回到正軌。Opus 4.6 的優勢在於它能夠「記住目標」，即使在複雜的多步驟任務中也不會偏離主線。

推理能力：Humanity’s Last Exam 的啟示

編碼只是 Opus 4.6 的一個面向。在 Humanity’s Last Exam 這個多學科推理測試中，它同樣展現了驚人的能力，領先所有前沿模型。

這個評測涵蓋了從物理、化學到哲學、經濟學的廣泛領域，測試的不是記憶力，而是跨領域推理能力。我特別好奇它在「模糊問題」上的表現，於是設計了一個測試：

「假設一家科技公司面臨道德困境：他們的 AI 產品可以大幅提升效率，但會導致 30% 的員工失業。從經濟學、倫理學和社會學三個角度分析，公司應該如何決策？」

Opus 4.6 的回答展現了三個層次：經濟學視角分析了短期失業成本 vs. 長期生產力提升，引入了「創造性破壞」理論；倫理學視角討論了功利主義與義務論的衝突，提出了「漸進式轉型」的折衷方案；社會學視角考慮了社會穩定性、技能再培訓、政策支援等因素。

更重要的是，它沒有給出一個簡單的「是或否」答案，而是提出了一個包含時間軸、配套措施、風險評估的完整決策框架。

經濟價值：GDPval-AA 的真實意義

在 GDPval-AA（經濟價值知識工作評測）上，Opus 4.6 超越 GPT-5.2 約 144 Elo 分。這個數字聽起來很抽象，但它實際上反映了一個關鍵問題：AI 能為企業創造多少實際價值？

我用一個財務分析場景來測試。給 Opus 4.6 一份包含三年財報、市場數據、競爭對手資訊的資料集（約 30 萬 token），然後要求：「評估這家公司的投資價值，並給出詳細的盡職調查報告。」

Opus 4.6 生成的報告包含財務健康度分析、市場定位評估、風險因素識別、估值模型（DCF、可比公司分析、敏感度測試）。這份報告的品質，已經接近初級分析師的水準。更重要的是，它只花了 5 分鐘，而人類分析師可能需要 2-3 天。

Agent Teams：多代理協作的未來

Opus 4.6 最讓我興奮的功能是 Agent Teams（多代理協作）研究預覽。這個功能允許多個 AI 代理同時工作，各自負責不同的任務，然後協同完成複雜專案。

我測試了一個場景：「建立一個完整的電商網站，包含前端、後端、資料庫設計、部署腳本。」在 Agent Teams 模式下，Opus 4.6 自動分配了四個代理：架構師代理負責整體設計，前端代理實作 React UI，後端代理建構 API，DevOps 代理撰寫 Docker 配置。

這四個代理不是獨立工作，而是會互相溝通。前端代理需要某個 API 端點時，會直接向後端代理提出需求；DevOps 代理發現部署配置需要調整時，會通知架構師代理。整個過程就像一個真實的開發團隊在協作，只是速度快了 10 倍。

與 GPT-5.2 的對比

在實際使用中，Opus 4.6 和 GPT-5.2 各有優勢：

Opus 4.6 勝出的場景：長上下文理解（50 萬 token 以上場景更穩定）、Agentic 編碼任務（需要的人工介入更少）、深度推理（跨領域知識整合更有深度）。

GPT-5.2 勝出的場景：創意生成（行銷文案、故事創作更有想像力）、短上下文回應速度稍快、多模態整合（圖像理解和生成仍有優勢）。

如果用一句話總結：Opus 4.6 是「深度工作者」，GPT-5.2 是「創意夥伴」。

誰應該升級？

經過兩週的深度測試，我認為 Opus 4.6 特別適合：大型程式碼庫維護、複雜資料分析（財務、市場研究、盡職調查）、多步驟自動化任務、跨領域知識整合。

不適合的場景：快速創意發想（GPT-5.2 更合適）、簡單單次查詢（Sonnet 4.5 就夠了）、圖像生成（還是要靠 DALL-E 或 Midjourney）。

定價方面，Opus 4.6 的輸入 $15/百萬 token、輸出 $75/百萬 token 比 Opus 4.5 貴了約 50%。如果你的使用場景能充分發揮它的優勢，這個價格是值得的，因為它節省的人力成本遠超 API 費用。

評分

編碼能力：9.5/10
推理能力：9/10
長上下文處理：9.5/10
易用性：8.5/10
性價比：8/10
綜合評分：9/10

推薦指數：⭐⭐⭐⭐⭐（強烈推薦給專業用戶）

Claude Opus 4.6 不是一次革命性的突破，但它是一次有意義的進化。它在編碼能力、長上下文理解、深度推理三個方向上都有顯著提升，讓 AI 從「工具」更接近「協作夥伴」。至於那個困擾我兩天的 Python 腳本？在 Opus 4.6 的幫助下，我用了半小時就完成了優化，效能提升了 3 倍。這就是 AI 的價值：不是取代人類的思考，而是放大人類的能力。

Claude Opus 4.6 深度評測：Anthropic 交出了一份怎樣的答卷？

開箱：百萬 token 不只是數字遊戲

編碼能力：Terminal-Bench 2.0 的王者

推理能力：Humanity’s Last Exam 的啟示

經濟價值：GDPval-AA 的真實意義

Agent Teams：多代理協作的未來

與 GPT-5.2 的對比

誰應該升級？

評分

分享文章

留言評論

相關文章

Claude Opus 4.6 深度評測：更強的自主性與專注力

OpenAI Prism 深度評測：當 GPT-5.2 接管科研，Overleaf 的時代結束了嗎？

UI UX Pro Max：讓 AI 編碼助手擁有「設計師審美」的秘密武器