OpenAI 發布 GPT-5.4：首個支援電腦操作的企業級 AI 模型

OpenAI 在 3 月 5 日發布了 GPT-5.4。距離上一個版本 GPT-5.3 Instant 才過兩天。

AI 現在可以控制你的電腦

GPT-5.4 加入了原生電腦操作能力（native computer use）。AI 可以直接控制電腦，點擊滑鼠、輸入鍵盤，在不同應用程式之間完成任務。

在 OSWorld-Verified 基準測試中，GPT-5.4 的桌面導航得分是 75.0%，比人類的 72.4% 還高。這聽起來很厲害，但實際使用時會是什麼樣子還不清楚。

它能做什麼

GPT-5.4 可以：

在瀏覽器中搜尋資訊、填寫表單、提交資料
編輯 Excel 試算表、Word 文件、PowerPoint 簡報
撰寫並執行程式碼
跨多個應用程式完成工作流程

聽起來很方便，但我會想知道它在哪些情況下會出錯。

技術改進

推理和編碼

GPT-5.4 在處理需要從多個來源收集資訊的問題時表現更好。OpenAI 說模型可以「更持續地進行多輪搜尋，識別最相關的來源，並將它們整合成清晰、有理有據的答案」。

準確性

與 GPT-5.2 相比，GPT-5.4 的錯誤率降低了 33%。OpenAI 稱這是他們「迄今為止最真實的模型」。對企業應用來說，這很重要，因為錯誤的資訊會影響決策。

上下文長度

GPT-5.4 支援 100 萬個 token 的上下文視窗。這意味著它可以處理很長的文件、程式碼庫或對話歷史。

三個版本

OpenAI 推出了三個版本：

GPT-5.4 Thinking：面向 ChatGPT Plus、Team 和 Pro 使用者，提供改進的推理能力
GPT-5.4：透過 API 和 Codex 提供，支援電腦操作功能
GPT-5.4 Pro：針對最複雜任務，面向 ChatGPT Enterprise 和 Edu 使用者

ChatGPT 中的新功能

在 ChatGPT 中，GPT-5.4 Thinking 模型加入了幾項新功能：

對於複雜查詢，模型會提供工作大綱
使用者可以在模型回應過程中調整請求，不用重新開始
改進的網路搜尋能力，特別是針對「大海撈針」類型的問題

與競爭對手的比較

GPT-5.4 的發布被視為 OpenAI 對 Anthropic 的回應。Anthropic 的 Claude 系列模型在企業市場表現不錯，特別是在程式碼生成和推理任務方面。

根據基準測試，GPT-5.4 在多項指標上超越了 Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6。

AI 代理的未來

GPT-5.4 的電腦操作能力代表 AI 從聊天機器人向自主工作夥伴的轉變。OpenAI 去年推出的 ChatGPT Agent 已經展示了這種可能性，而 GPT-5.4 把這個想法推得更遠。

未來可能會看到 AI 代理網路在背景中運作，自動處理複雜的線上任務和軟體操作。但這也帶來了新的問題：當 AI 可以自主操作電腦時，我們如何確保它做的是我們想要的事？

安全性和限制

OpenAI 強調了安全性。電腦操作能力在虛擬環境中執行，並受到權限控制。使用者需要明確授權 AI 才能執行特定操作。

模型仍然有一些限制：

對於某些複雜的 UI 互動可能會出錯
需要清晰的指令才能準確執行任務
在處理敏感資料時需要額外的安全措施

快速迭代的競爭

OpenAI 在兩天內發布了兩個重大更新（GPT-5.3 Instant 和 GPT-5.4），這顯示了 AI 領域的競爭有多激烈。Google、Anthropic、Microsoft 都在持續投入，2026 年可能會看到更多新模型發布。

GPT-5.4 是一個重要的更新，特別是電腦操作能力。但真正的考驗是實際使用：它在日常工作中有多可靠？會不會經常出錯？這些問題只有時間能回答。

OpenAI 發布 GPT-5.4：首個支援電腦操作的企業級 AI 模型

AI 現在可以控制你的電腦

它能做什麼

技術改進

推理和編碼

準確性

上下文長度

三個版本

ChatGPT 中的新功能

與競爭對手的比較

AI 代理的未來

安全性和限制

快速迭代的競爭

分享文章

留言評論

相關文章

AI 最新資訊週報：3 月第二週最值得看的 5 條官方更新

MiniMax M2.7、GPT-5.4 mini / nano、Midjourney V8 Alpha 同周登場：AI 正在開始分工

Anthropic 遭美國封殺，OpenAI 接手五角大樓 AI 合約：軍事 AI 倫理爭議全面升級