實測 GPT-5.3-Codex，OpenAI 史上第一個高危模型，連 API 都還不敢給我們

今天凌晨發布的 GPT-5.3-Codex 可以說是 OpenAI 對這段時間來，各種本地 Agent 爆火的一記重拳回擊，當然主要是對 Anthropic 的反擊。

贊助商廣告

配合 OpenAI 前幾天的發布的 Codex 桌面版應用，Skill、Cowork、Claude Code，甚至是 Openclaw，這些熱門工具能實現的功能，現在通過 Codex 的外殼 + GPT-5.3-Codex 模型能力，都能做到了。

實測 GPT-5.3-Codex，OpenAI 史上第一個高危模型，連 API 都還不敢給我們

在 Codex App 內可以直接選擇 GPT-5.3-Codex 模型，也能選擇深度思考的強度

和之前介紹 Cowork 的能力一樣，我們也丟了一些類似的任務讓 Codex 來完成，像是直接處理本地文件、各種格式轉換、調用不同的 Skills 組合能力、做 Word/PPT/Excel、下載影片、開發 App……

GPT-5.3-Codex 的表現確實亮眼，相比較從頭開始安裝 Claude Code，對新人用戶來說，現在直接下載 Codex 會是一個更好的選擇。

這也是未來模型廠商的一種趨勢，一開始大家都是從黑乎乎的命令行終端開始做本地 Agent，接著都慢慢回歸到可視化的友好界面。

網上對 Codex 的評價在這幾天也有了不少逆轉，許多開發者從 Claude Code 轉向 Codex，一些在國內的獨立開發者也表示 Codex Plus 會員就可以用，而且還不會像 Claude 那般總是無情封號。

i love how the entire timeline of good coders have already switched to codex and have been posting about codex for two weeks now while all the normies are still claude posting 💀😂 yall mfs two weeks behind wake up

奧特曼更是激動的宣布，Codex 的活躍用戶已經超過 100 萬。在模型更新博客，也是毫不掩飾且留有餘地的誇讚，

GPT-5.3-Codex 是我們第一個能夠自我構建的模型。通過使用 5.3-Codex，我們能夠以如此快的速度發布 5.3-Codex。

跟 Claude 團隊用兩周的時間，使用 Claude Code，100% AI 代碼，搓出一個 Cowork 一樣；還有 OpenAI 去年年底發布的文章，「使用 Codex 在 28 天內構建 Android 版 Sora」，Agent 的時代真的來了。

贊助商廣告

用 Codex 取代我的 ChatGPT 和 Claude Code

和大多數的本地 Agent 類似，無論是終端還是 Cowork，我們都是先選擇一個工作文件夾。在 Codex 中，我們可以創建多個 Project，選擇對應的文件夾，再進一步開始對話，Codex 把它們叫做 Threads 線程。

先用最普遍和簡單的例子，我們添加了一個空的下載文件夾，然後點擊開始一個線程，選擇 GPT-5.3-Codex 模型；就像在 ChatGPT 裡面對話一樣，輸入指令。

要求它幫我們下載一個 X 影片，Codex 會自動檢查可用的 Skills 來處理，接著通過 yt-dlp 工具進行下載，這個影片有四個多小時長，Codex 會一直在對話框裡自動更新下載進度。

GIF 圖經過加速處理

影片下載後，我們還可以要求它提取影片的逐字稿，給我們一份雙語版本的文檔，最後讓它把整個流程打包為一個 Skill，方便下次使用。

如果影片中有一些比較有意思的片段，想要裁剪影片，或者是把裁出來的影片轉成 GIF 圖，在 Codex 里都能做到。

例如，我們這裡下載了一個影片，然後要求它把影片的 5s-25s 裁剪出來成為一個新的影片；得益於 GPT-5.3-Codex 的 Token 快速處理，整個過程不需要很長時間，反而更多是取決於本地電腦的硬體解碼編碼能力。

贊助商廣告

GIF 圖經過加速處理

或者我們也可以直接要求它把影片的前 5s 轉成一個 GIF 文件，並且確保大小在 10MB 以內，幀數可以自行調整，清晰度上將寬度控制在 640px。

很快，我們就能得到對應的 GIF 文件。更極端一點，還能讓它把整個影片轉成圖片，每秒 30 幀，每一幀就是一張圖。

這些對本地文件的直接處理，和 GPT-5.3-Codex 在 Terminal-Bench-2 測試集上的優異表現，讓 Codex 基本上能滿足各種生產力工具、效率工具的功能實現。

作為對比，同樣是剛剛發布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%，GPT-5.3-Codex 是 77.3%。

贊助商廣告

圖片來源：https://x.com/neilsuperduper/status/2019486017703547309/

例如在這個文件夾中，有多張圖片，我們首先是要求它根據圖片內容，對這些圖片文件進行重命名，並保持文件名不超過 20 個字母，不允許使用符號。

GIF 圖經過加速

自動修改完成後，我們還能要求他對這些圖片進行拼接，無論是垂直拼接還是水平，調用對應的工具，Codex 都可以做到。

和 Claude Skills 一樣，Codex 也能安裝 Skills 市場上豐富的技能，並且在應用內，就已經提供了包括 pptx、xls、word、canvas、notion 在內的多款技能。

贊助商廣告

回到基礎的編程能力，升級後的 GPT-5.3-Codex 表現也比 GPT-5.2 要好上不少。我們直接要求它寫一個「每日一詞」的 App。和在 ChatGPT 裡面直接用 Canvas 給我們一個帶不走的網頁不同，Codex 能在本地從零開始，完成項目，然後使用 Vercel 或 Cloudflare 等 Skills 部署到網頁上。

這裡我們選擇的推理模式是 Extra High，超強推理模式，於是在每一步操作之前，GPT-5.3-Codex 都會詢問我下一步的操作選擇，這也和 Codex 內部能直接根據任務情況，調用不同 Skills 有關，其中的頭腦風暴 Skill，會自動進行不斷對話的模式。

最後，它基本上還是完成了我一開始要求它完成的全部功能，並且還能進一步開發 macOS、iOS，和安卓版本。

如果我們有現成的代碼項目，也可以選擇該項目文件夾，在 Codex 中打開，GPT-5.3-Codex 會分析項目存在的 Bug，並且修復它。

贊助商廣告

在過去很長一段時間裡，無論是工具還是模型，開發者的首選其實都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在編程、尤其是長代碼邏輯推理上的掉隊，曾讓不少開發者轉投陣營。

GPT-5.3-Codex 的出現，就是為了終結這場爭論。現在 GPT-5.3-Codex 在編程基準測試和實際表現上，不僅碾壓了自家的前代模型，也確實有把友商模型按在地上摩擦的前兆。它真正具備了編寫、測試和推理代碼的能力。

做遊戲項目，是這次模型介紹博客里，網站開發部分主要案例，我們也讓 GPT-5.3-Codex 做了一個簡單的物理彈球遊戲，整體的效果雖然沒有達到我的期待，因為我在提示詞裡面有說希望這是一個 RPG 的遊戲，但 GPT-5.3-Codex 給我的界面還是過於簡陋了。不過，好在還是能玩。

我們也在 X 上找到了一些用 GPT-5.3-Codex 做的小遊戲，像這個類似超級瑪麗的收集金幣。

GPT-5.3-Codex with image gen skill (NBP) I'm loving this model so much. This is one-shot

強中更有強中手

對 Anthropic 來說，OpenAI 今天玩的這些，可能會說，這都是我們玩剩下的。無論是代碼、或者 Agent 的能力，還是開始著手去做本地 Agent，從之前 Codex 的終端轉成現在的 macOS App。

在技術的領域，OpenAI 仿佛都是跟著 Claude 的腳步在走，Claude 深耕代碼能力，OpenAI 搞了 Sora、日報、瀏覽器、ChatGPT agent，都沒什麼水花，於是也在代碼上發力；Claude 一月初推出 Cowork，OpenAI 也緊接著在二月初發布 Codex App。

GPT-5.3-Codex is now available in Codex. You can just build things.

贊助商廣告

Introducing Claude Opus 4.6. Our smartest model got an upgrade. Opus 4.6 plans more carefully, sustains agentic tasks for longer, operates reliably in massive codebases, and catches its own mistakes. It’s also our first Opus-class model with 1M token context in beta.

就和今天的密集發布一樣，凌晨 1:45，Claude 官方發 X 推出 Claude Opus 4.6，緊接著就是 OpenAI 端上 GPT-5.3-Codex。兩款模型其實都是為了給 Agent 更強大的基座能力，以前是說代碼/vibe coding，但現在 Agent 能做好，基本上都是「寫代碼寫得好」。

Opus 4.6 雖然在 SWE-Bench 上的表現甚至不如 Opus 4.5，並且 Terminal-Bench 2.0 上的成績也沒有 GPT-5.3-Codex 強，但是 Opus 破天荒地把上下文長度拉到了一百萬 token 的窗口。而且，這些 benchmark 的表現還沒有相差很多。

Claude 說，我的 Sonnet 5 還沒上來，那才是真功夫。

我們在網上也找了一些 Opus 4.6 最新的測試案例，有網友說 Claude 4.6 Opus 只是一次調用，就完全重構了他的整個代碼庫，將原來混亂的代碼「屎山」全部模塊化，並且沒有模型能像 Opus 這樣做到。

Claude 4.6 Opus just refactored my entire codebase in one call. 25 tool invocations. 3,000+ new lines. 12 brand new files. It modularized everything. Broke up monoliths. Cleaned up spaghetti. None of it worked. But boy was it beautiful.

贊助商廣告

還有網友拿 Opus 4.6 和 4.5 進行對比，讓兩個模型玩同一款經營遊戲，看誰的賬戶等級、財富和裝備更高。測試博主提到，4.6 版本在初期制定戰略的時間更長，但是做出了更好的戰略決策，並且在最後確實做到了遙遙領先。

racing Opus 4.6 against 4.5 to max out a Runescape account

還有網友也做了一個遊戲，不過是一個寶可夢的克隆版。博主提到這是他用 AI 做出來的最酷的東西。他提到，Claude Opus 4.6 思考了 1 小時 30 分鐘，使用了 11 萬個 Token，並且只疊代了三次。

https://x.com/chatgpt21/status/2019679978162634930

在 CLaude 官方演示和早期用戶的反饋中，也提到了一個 Opus 表現優秀的案例。Opus 4.6 在一天內自主關閉了 13 個 issue，issue 即項目存在的待解決問題，並將另外 12 個 issue 準確分派給了正確的人類團隊成員。

和 Kimi K2.5 的智能體蜂群一樣，Opus 4.6 也能管理一個 50 人規模組織的代碼庫。在 Claude Code 中，我們可以組建 Agent Teams，召喚出一整個隊伍的 AI，不再是一個 AI 在戰鬥。這些AI 可以有的負責寫代碼，有的負責 Review，有的負責測試，它們之間自主協作。

也有網友測試了 Claude Code 裡面的 Agent 蜂群，提到啟用蜂群之後的 Opus 4.6，速度提升 2.5 倍，並且效果也更好。

opus 4.6 with new 「swarm」 mode vs. opus 4.6 without it. 2.5x faster + done better. swarms work! and multi-agent tmux view is *genius*. insane claude code update.

贊助商廣告

我們現在的狀態就跟這張圖片一樣，雖然一山比一山高，但都繞不出這個圈。前幾個月可能是 Gemini 賺走了風頭，一月份來，應該是 Claude，然後看樣子又要輪到 OpenAI，或者馬斯克的 Grok。