GPT-5.5 來了：代碼實力比前代猛、一把餵爛任務它自己扛，但重點是更省 token

OpenAI 在 4 月 24 日正式發布 GPT-5.5，官方用了「迄今最聰明、最直覺的模型」來稱呼它。但如果你看過其他 AI 模型的發布稿，大概會對這種形容詞免疫。真正值得看的，是它到底在哪裡變強了。

這次的 GPT-5.5 不只在代碼生成上大躍進——Terminal-Bench 2.0 達到 82.7% 準確率，在 SWE-Bench Pro 上達到 58.6%——它還有一個沒有寫在標題、但對開發者和使用者都很關鍵的變化：同一個任務，它用更少的 token 就能完成。

沒錯，不是在效能和成本之間取捨，而是兩邊同時變好。

模型層級：兩個版本，三種角色

先搞清楚產品線。這次發布涵蓋兩個模型版本：

GPT-5.5：提供給 ChatGPT Plus、Pro、Business、Enterprise 以及 Codex 使用者
GPT-5.5 Pro：僅限 ChatGPT Pro、Business、Enterprise 用戶

兩者的主要差異在於推理深度。Pro 版本在 FrontierMath Tier 4 上達到 39.6%（對比 GPT-5.5 的 35.4%），在 BrowseComp 上達到 90.1%（對比 84.4%）。如果你是日常開發者，標準版已經很夠用；如果你在做前沿研究或需要極高準確率的場景，Pro 版才是你的菜。

但對台灣開發者來說，更重要的是它到底能幫你解決什麼具體問題。我們來拆數據。

代碼表現：不只是分數好看

OpenAI 提供了一系列基準測試成績，但真正值得關注的是這幾項：

Terminal-Bench 2.0：82.7%

這不是那種「寫一個 Hello World」的玩具測試。Terminal-Bench 2.0 測試的是模型能否在命令列環境中完成多步驟工作流程——規劃、迭代、協調不同工具——這是真實開發工作的寫照。GPT-5.4 在這項測試上只有 75.1%，而 Claude Opus 4.7 是 69.4%，Gemini 3.1 Pro 是 68.5%。差距不是一點半點。

SWE-Bench Pro：58.6%

這測試的是模型能否在真實 GitHub issue 上完成端到端修復——從理解問題到寫出修復程式碼。58.6% 意味著超過一半的真實 bug 可以在一次 pass 中被解掉，而且不需要人工介入調整。

Expert-SWE（內部測試）：73.1%

這是 OpenAI 內部的標準，用於測試長期編碼任務——每題的預估人類完成時間中位數是 20 小時。GPT-5.5 的得分是 73.1%，高於 GPT-5.4 的 68.5%。你可以理解為：有一個能連續專注 20 小時不休息的工程師，幫你搞定以前要花好幾天的工作。

Toolathlon：55.6%

這個測試評估模型能否在不同工具間自由切換——寫文件、操作試算表、呼叫 API——這也是 GPT-5.5 號稱「能自己扛多工具任務」背後的數字支撐。對比 Claude Opus 4.7（無數據）和 Gemini 3.1 Pro（48.8%），55.6% 雖然還有進步空間，但已經是目前最強。

OSWorld-Verified：78.7%

模擬模型在完整作業系統環境中操作軟體的能力——點擊、打字、讀取介面、完成任務。78.7% 對比 GPT-5.4 的 75.0% 和 Claude Opus 4.7 的 78.0%，說明這次改進不只在代碼生成，也在電腦操作層面。

最大亮點：更聰明 + 更省 token

這大概是整篇發布稿裡最反直覺的一句話：

GPT-5.5 matches GPT-5.4 per-token latency in real-world serving, while performing at a much higher level of intelligence. It also uses significantly fewer tokens to complete the same Codex tasks.

翻譯成白話就是：它更快完成任務，同時花的錢更少。

一般來說，更大的模型、更複雜的推理，意味著要花更多計算資源、更多時間、更多錢。但 GPT-5.5 在實際服務中每個 token 的延遲和 5.4 一樣，卻在更少的 token 數內完成更多工作。根據 Artificial Analysis 的 Coding Index，GPT-5.5 在智力表現上是「前沿級」，但成本只有競品的一半。

對於正在使用 AI 輔助開發的團隊來說，這代表兩件事：
– 你的月費不會因為模型升級而暴漲
– 同一個 token 預算，你能完成更多任務

安全機制：有史以來最嚴

GPT-5.5 也是 OpenAI 宣稱「到目前為止安全防護最強」的模型。他們在發布前做了一系列評估：

完整的安全與準備框架（Safety & Preparedness Framework）測試
內外部紅隊測試
針對先進網路安全和生物能力的目標性測試
收集了將近 200 個早期合作夥伴在真實使用場景中的回饋

這不完全只是公關說詞。考慮到 GPT-5.5 的自主能力——它可以在沒有人類監督的情況下，跨工具運作更長時間——安全機制其實是能不能上線實用的關鍵門檻。如果一個比你還強的 AI 代理沒有足夠的 guardrail，後果不只是一個 bug 那麼簡單。

目前 GPT-5.5 在 API 部分還未全面開放，OpenAI 表示正在與合作夥伴和客戶協商安全與部署要求。如果你只想在 ChatGPT 上使用，現在就能直接體驗。

早期使用者的真實回饋

這次發布稿除了數字，還引用了幾個早期使用者的說法，比基準數字更能反映 GPT-5.5 在「真實世界」的表現：

Dan Shipper（Every 創辦人兼 CEO）：「這是我用過第一個具有『概念清晰度』的編碼模型。」他做了一個測試：把自己團隊裡一個高級工程師花好幾天修 bug 的場景倒回時間，然後看 GPT-5.5 能不能只看壞掉的狀態就產出同樣的修復。GPT-5.4 辦不到。GPT-5.5 辦到了。

Pietro Schirano（MagicPath CEO）：「GPT-5.5 用一次約 20 分鐘的處理，合併了一個有數百個前端和重構變更的分支，而目標分支也已經大幅變動。」

有一位在 NVIDIA 任職、獲得早期權限的工程師說得更直白：「失去 GPT-5.5 的感覺，就像我的肢體被截肢了。」

高級工程師們的反饋也很一致：GPT-5.5 在推理和自主性上明顯強於 GPT-5.4 和 Claude Opus 4.7，它會主動預測測試需求、預防潛在問題。有一個案例是，工程師請它重新設計協作 Markdown 編輯器中的評論系統，回來時已經是一個接近完成的 12 個 diff 堆疊。

對台灣開發者的實際意義

我把這些資訊整理成幾個可以直接對應到你日常工作的點：

如果你是 Solo Developer

GPT-5.5 最大的價值是省時間。不是幫你「寫更多程式碼」，而是幫你「少看好幾次錯誤」。早期的回饋提到一個關鍵行為：GPT-5.5 不會在問題複雜時提前放棄。它會繼續嘗試，直到任務完成。對沒有 code review 夥伴的獨立開發者來說，這意味著有人幫你把關——而且不會不耐煩。

具體場景：你有一個 Legacy 專案，有一堆陳年的技術債，需要重構其中一個模組。以前你可能要把需求拆成 10 個小 prompt，一個一個餵，還要不停調整。GPT-5.5 可以一次接收一個「亂亂的、多步驟的任務」，然後自己規劃、檢查、修正、完成。

如果你在團隊中

GPT-5.5 的「多文件保持一致」能力在團隊協作中特別有用。如果你的團隊正在做一個包含前後端、資料庫、配置檔案的專案，以前用 AI 生成的片段經常需要人工調整來對齊其他部分。根據早期測試者的回饋，GPT-5.5 在「保持跨系統的上下文」方面做得更好——它會考慮你的架構，推理出修改對其他部分的影響。

如果你在做研究或數據分析

FrontierMath Tier 3 分數從 47.6% 提升到 51.7%，Tier 4（最難）從 27.1% 提升到 35.4%，這表明 GPT-5.5 在處理高度抽象問題時也有了實質進步。如果你需要做數據清洗、統計建模或論文摘要，GPT-5.5 Pro 版本的 BrowseComp 90.1% 意味著它已經能勝任「從大量資訊中篩選出正確答案」的工作。

和其他模型的比較

OpenAI 在發布稿中提供了多個維度的交叉比較。這裡把幾個關鍵點整理出來：

跟 GPT-5.4 比： 全面進步。在 Terminal-Bench 2.0 上從 75.1% 到 82.7%（+7.6%），在 FrontheirMath Tier 4 上從 27.1% 到 35.4%（+8.3%），在 CyberGym 上從 79.0% 到 81.8%（+2.8%）。最顯著的成長發生在長期推理和多工具協作場景。

跟 Claude Opus 4.7 比： GPT-5.5 在大多數基準測試上領先。GDPval（GPT-5.5 84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 3（51.7% vs 43.8%）。但有幾項測試兩者非常接近——OSWorld-Verified 上 GPT-5.5 78.7% 對比 Claude 78.0%，幾乎持平。

跟 Gemini 3.1 Pro 比： GPT-5.5 在 Toolathlon 上領先（55.6% vs 48.8%），但 BrowseComp 上 GPT-5.5 Pro 的 90.1% 大幅領先 Gemini 的 85.9%。

一個值得注意的點：OpenAI 在這次發布中首次對比了多個競品的基準數據，這在過去比較少見。某種程度上，這也反映了 AI 模型競爭進入了一個「誰都不能再說自己最強，只能靠數據說話」的階段。

成本與效率的雙重進展

GPT-5.5 在效率層面的進步，可能是對商業用戶影響最深遠的。根據 Artificial Analysis 的數據，GPT-5.5 在 Coding Index 上以「State-of-the-Art」的智力表現，成本只有其他前沿編碼模型的一半。

這件事的意義很直接：如果你是 SaaS 產品開發者，背後的 AI 功能成本直接影響你的利潤；如果你是 freelancer，每個月 token 預算直接關係到你能接多少案子。GPT-5.5 讓同樣的預算可以承載更多工作量。

另外一個沒有被特別強調的好處是：同一個任務用更少 token 也代表 AI 生成的響應更快。這在使用體驗上會很明顯——特別是在 Codex 這類需要即時回饋的場景中。

對整個 AI 生態的影響

GPT-5.5 的發布，放在更大的脈絡下看，代表 AI 競爭已經從「誰的模型更大、更會考試」轉向「誰能在更低的成本下做更多實際工作」。

過去一年，我們看到 Anthropic 的 Claude Opus 系列持續進步，Google 的 Gemini 也在拼命追趕，Meta 的開源模型不斷縮小差距。OpenAI 這次用一個「更聰明但也更經濟」的模型來回應市場，而不是單純疊參數刷榜單，這個訊號本身就很有意思。

另外，OpenAI 選擇在效能提升的同時保持延遲不增加，背後反映的是模型架構層面的進步。GTP-5.5 不是簡單的「更大參數 + 更多 GPU」，而是透過更優化的推理路徑來實現更高效的輸出。這對整個行業的啟示是：AI 晶片算力固然重要，但模型效率的進步空間可能比我們想像的還大。

結尾

這次 GPT-5.5 的發布，最讓我印象深刻的不是哪個基準測試破紀錄，而是 NVIDIA 那位工程師的一句話：「失去 GPT-5.5 的感覺，就像我的肢體被截肢了。」當頂尖開發者對一個工具產生這種程度的依賴時，它就已經不只是「一個不錯的模型」——它正在成為工作流程中不可替代的一環。

對台灣開發者來說，現在是最好的進場時機。不用等完美，因為不會有那一天。但有了 GPT-5.5，你至少可以確定一件事：你花的每一塊錢，換回來的生產力比去年多了一倍。