OpenAI 在 4 月 24 日正式發布 GPT-5.5,官方用了「迄今最聰明、最直覺的模型」來稱呼它。但如果你看過其他 AI 模型的發布稿,大概會對這種形容詞免疫。真正值得看的,是它到底在哪裡變強了。

這次的 GPT-5.5 不只在代碼生成上大躍進——Terminal-Bench 2.0 達到 82.7% 準確率,在 SWE-Bench Pro 上達到 58.6%——它還有一個沒有寫在標題、但對開發者和使用者都很關鍵的變化:同一個任務,它用更少的 token 就能完成。

沒錯,不是在效能和成本之間取捨,而是兩邊同時變好。

模型層級:兩個版本,三種角色

先搞清楚產品線。這次發布涵蓋兩個模型版本:

兩者的主要差異在於推理深度。Pro 版本在 FrontierMath Tier 4 上達到 39.6%(對比 GPT-5.5 的 35.4%),在 BrowseComp 上達到 90.1%(對比 84.4%)。如果你是日常開發者,標準版已經很夠用;如果你在做前沿研究或需要極高準確率的場景,Pro 版才是你的菜。

但對台灣開發者來說,更重要的是它到底能幫你解決什麼具體問題。我們來拆數據。

代碼表現:不只是分數好看

OpenAI 提供了一系列基準測試成績,但真正值得關注的是這幾項:

Terminal-Bench 2.0:82.7%

這不是那種「寫一個 Hello World」的玩具測試。Terminal-Bench 2.0 測試的是模型能否在命令列環境中完成多步驟工作流程——規劃、迭代、協調不同工具——這是真實開發工作的寫照。GPT-5.4 在這項測試上只有 75.1%,而 Claude Opus 4.7 是 69.4%,Gemini 3.1 Pro 是 68.5%。差距不是一點半點。

SWE-Bench Pro:58.6%

這測試的是模型能否在真實 GitHub issue 上完成端到端修復——從理解問題到寫出修復程式碼。58.6% 意味著超過一半的真實 bug 可以在一次 pass 中被解掉,而且不需要人工介入調整。

Expert-SWE(內部測試):73.1%

這是 OpenAI 內部的標準,用於測試長期編碼任務——每題的預估人類完成時間中位數是 20 小時。GPT-5.5 的得分是 73.1%,高於 GPT-5.4 的 68.5%。你可以理解為:有一個能連續專注 20 小時不休息的工程師,幫你搞定以前要花好幾天的工作。

Toolathlon:55.6%

這個測試評估模型能否在不同工具間自由切換——寫文件、操作試算表、呼叫 API——這也是 GPT-5.5 號稱「能自己扛多工具任務」背後的數字支撐。對比 Claude Opus 4.7(無數據)和 Gemini 3.1 Pro(48.8%),55.6% 雖然還有進步空間,但已經是目前最強。

OSWorld-Verified:78.7%

模擬模型在完整作業系統環境中操作軟體的能力——點擊、打字、讀取介面、完成任務。78.7% 對比 GPT-5.4 的 75.0% 和 Claude Opus 4.7 的 78.0%,說明這次改進不只在代碼生成,也在電腦操作層面。

最大亮點:更聰明 + 更省 token

這大概是整篇發布稿裡最反直覺的一句話:

GPT-5.5 matches GPT-5.4 per-token latency in real-world serving, while performing at a much higher level of intelligence. It also uses significantly fewer tokens to complete the same Codex tasks.

翻譯成白話就是:它更快完成任務,同時花的錢更少。

一般來說,更大的模型、更複雜的推理,意味著要花更多計算資源、更多時間、更多錢。但 GPT-5.5 在實際服務中每個 token 的延遲和 5.4 一樣,卻在更少的 token 數內完成更多工作。根據 Artificial Analysis 的 Coding Index,GPT-5.5 在智力表現上是「前沿級」,但成本只有競品的一半。

對於正在使用 AI 輔助開發的團隊來說,這代表兩件事:
– 你的月費不會因為模型升級而暴漲
– 同一個 token 預算,你能完成更多任務

安全機制:有史以來最嚴

GPT-5.5 也是 OpenAI 宣稱「到目前為止安全防護最強」的模型。他們在發布前做了一系列評估:

這不完全只是公關說詞。考慮到 GPT-5.5 的自主能力——它可以在沒有人類監督的情況下,跨工具運作更長時間——安全機制其實是能不能上線實用的關鍵門檻。如果一個比你還強的 AI 代理沒有足夠的 guardrail,後果不只是一個 bug 那麼簡單。

目前 GPT-5.5 在 API 部分還未全面開放,OpenAI 表示正在與合作夥伴和客戶協商安全與部署要求。如果你只想在 ChatGPT 上使用,現在就能直接體驗。

早期使用者的真實回饋

這次發布稿除了數字,還引用了幾個早期使用者的說法,比基準數字更能反映 GPT-5.5 在「真實世界」的表現:

Dan Shipper(Every 創辦人兼 CEO):「這是我用過第一個具有『概念清晰度』的編碼模型。」他做了一個測試:把自己團隊裡一個高級工程師花好幾天修 bug 的場景倒回時間,然後看 GPT-5.5 能不能只看壞掉的狀態就產出同樣的修復。GPT-5.4 辦不到。GPT-5.5 辦到了。

Pietro Schirano(MagicPath CEO):「GPT-5.5 用一次約 20 分鐘的處理,合併了一個有數百個前端和重構變更的分支,而目標分支也已經大幅變動。」

有一位在 NVIDIA 任職、獲得早期權限的工程師說得更直白:「失去 GPT-5.5 的感覺,就像我的肢體被截肢了。」

高級工程師們的反饋也很一致:GPT-5.5 在推理和自主性上明顯強於 GPT-5.4 和 Claude Opus 4.7,它會主動預測測試需求、預防潛在問題。有一個案例是,工程師請它重新設計協作 Markdown 編輯器中的評論系統,回來時已經是一個接近完成的 12 個 diff 堆疊。

對台灣開發者的實際意義

我把這些資訊整理成幾個可以直接對應到你日常工作的點:

如果你是 Solo Developer

GPT-5.5 最大的價值是省時間。不是幫你「寫更多程式碼」,而是幫你「少看好幾次錯誤」。早期的回饋提到一個關鍵行為:GPT-5.5 不會在問題複雜時提前放棄。它會繼續嘗試,直到任務完成。對沒有 code review 夥伴的獨立開發者來說,這意味著有人幫你把關——而且不會不耐煩。

具體場景:你有一個 Legacy 專案,有一堆陳年的技術債,需要重構其中一個模組。以前你可能要把需求拆成 10 個小 prompt,一個一個餵,還要不停調整。GPT-5.5 可以一次接收一個「亂亂的、多步驟的任務」,然後自己規劃、檢查、修正、完成。

如果你在團隊中

GPT-5.5 的「多文件保持一致」能力在團隊協作中特別有用。如果你的團隊正在做一個包含前後端、資料庫、配置檔案的專案,以前用 AI 生成的片段經常需要人工調整來對齊其他部分。根據早期測試者的回饋,GPT-5.5 在「保持跨系統的上下文」方面做得更好——它會考慮你的架構,推理出修改對其他部分的影響。

如果你在做研究或數據分析

FrontierMath Tier 3 分數從 47.6% 提升到 51.7%,Tier 4(最難)從 27.1% 提升到 35.4%,這表明 GPT-5.5 在處理高度抽象問題時也有了實質進步。如果你需要做數據清洗、統計建模或論文摘要,GPT-5.5 Pro 版本的 BrowseComp 90.1% 意味著它已經能勝任「從大量資訊中篩選出正確答案」的工作。

和其他模型的比較

OpenAI 在發布稿中提供了多個維度的交叉比較。這裡把幾個關鍵點整理出來:

跟 GPT-5.4 比: 全面進步。在 Terminal-Bench 2.0 上從 75.1% 到 82.7%(+7.6%),在 FrontheirMath Tier 4 上從 27.1% 到 35.4%(+8.3%),在 CyberGym 上從 79.0% 到 81.8%(+2.8%)。最顯著的成長發生在長期推理和多工具協作場景。

跟 Claude Opus 4.7 比: GPT-5.5 在大多數基準測試上領先。GDPval(GPT-5.5 84.9% vs 80.3%)、BrowseComp(84.4% vs 79.3%)、FrontierMath Tier 3(51.7% vs 43.8%)。但有幾項測試兩者非常接近——OSWorld-Verified 上 GPT-5.5 78.7% 對比 Claude 78.0%,幾乎持平。

跟 Gemini 3.1 Pro 比: GPT-5.5 在 Toolathlon 上領先(55.6% vs 48.8%),但 BrowseComp 上 GPT-5.5 Pro 的 90.1% 大幅領先 Gemini 的 85.9%。

一個值得注意的點:OpenAI 在這次發布中首次對比了多個競品的基準數據,這在過去比較少見。某種程度上,這也反映了 AI 模型競爭進入了一個「誰都不能再說自己最強,只能靠數據說話」的階段。

成本與效率的雙重進展

GPT-5.5 在效率層面的進步,可能是對商業用戶影響最深遠的。根據 Artificial Analysis 的數據,GPT-5.5 在 Coding Index 上以「State-of-the-Art」的智力表現,成本只有其他前沿編碼模型的一半。

這件事的意義很直接:如果你是 SaaS 產品開發者,背後的 AI 功能成本直接影響你的利潤;如果你是 freelancer,每個月 token 預算直接關係到你能接多少案子。GPT-5.5 讓同樣的預算可以承載更多工作量。

另外一個沒有被特別強調的好處是:同一個任務用更少 token 也代表 AI 生成的響應更快。這在使用體驗上會很明顯——特別是在 Codex 這類需要即時回饋的場景中。

對整個 AI 生態的影響

GPT-5.5 的發布,放在更大的脈絡下看,代表 AI 競爭已經從「誰的模型更大、更會考試」轉向「誰能在更低的成本下做更多實際工作」。

過去一年,我們看到 Anthropic 的 Claude Opus 系列持續進步,Google 的 Gemini 也在拼命追趕,Meta 的開源模型不斷縮小差距。OpenAI 這次用一個「更聰明但也更經濟」的模型來回應市場,而不是單純疊參數刷榜單,這個訊號本身就很有意思。

另外,OpenAI 選擇在效能提升的同時保持延遲不增加,背後反映的是模型架構層面的進步。GTP-5.5 不是簡單的「更大參數 + 更多 GPU」,而是透過更優化的推理路徑來實現更高效的輸出。這對整個行業的啟示是:AI 晶片算力固然重要,但模型效率的進步空間可能比我們想像的還大。

結尾

這次 GPT-5.5 的發布,最讓我印象深刻的不是哪個基準測試破紀錄,而是 NVIDIA 那位工程師的一句話:「失去 GPT-5.5 的感覺,就像我的肢體被截肢了。」當頂尖開發者對一個工具產生這種程度的依賴時,它就已經不只是「一個不錯的模型」——它正在成為工作流程中不可替代的一環。

對台灣開發者來說,現在是最好的進場時機。不用等完美,因為不會有那一天。但有了 GPT-5.5,你至少可以確定一件事:你花的每一塊錢,換回來的生產力比去年多了一倍。