OpenAI 今天正式發表 GPT-5.5,不僅號稱「有史以來最智慧的模型」,更在代理式程式碼編寫、計算機操作、知識工作和科學研究四個領域都帶來了實質性的提升。從這篇文章你會看到:GPT-5.5 到底強在哪裡、它和其他模型相比的競爭優勢、以及它對開發者日常工作可能產生的實際影響。
一次發布,兩個版本
這次 OpenAI 同時推出了兩個版本:GPT-5.5 和 GPT-5.5 Pro。前者從今天開始陸續向 Plus、Pro、Business 和 Enterprise 用戶開放,後者則鎖定 Pro、Business 和 Enterprise 用戶。API 版本的部署因安全審查需求較高,OpenAI 表示「很快會跟進」。
這兩者的差異不只體現在規模上。根據 OpenAI 公布的內部評估數據,GPT-5.5 Pro 在需要深入推理的場景中表現更為突出——例如在 BrowseComp(網頁瀏覽理解)測試中,Pro 版得分 90.1%,對比標準版的 84.4%;而在 FrontierMath 的 Tier 4 最困難級別,Pro 版達到 39.6%,標準版則是 35.4%。
但對多數開發者來說,標準版的 GPT-5.5 就已經足夠令人印象深刻了。
基準測試:數字不會說謊
OpenAI 這次公布了橫跨多個維度的評測數據。以下是最關鍵的幾項:
終端操作能力(Terminal-Bench 2.0)
這個測試評估模型在命令列環境中完成複雜工作流程的能力,包含規劃、迭代和工具協調。GPT-5.5 達到 82.7%,相較 GPT-5.4 的 75.1% 提升了超過 7 個百分點。作為對照,Claude Opus 4.7 為 69.4%,Gemini 3.1 Pro 為 68.5%。
知識工作品質(GDPval)
GDPval 評估代理在 44 個職業類別中產出高品質知識工作的能力。GPT-5.5 得分 84.9%(勝率或平手),略高於 GPT-5.4 的 83.0%,並明顯超越 Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。
計算機操作(OSWorld-Verified)
測試模型是否能自主操作真實計算機環境。GPT-5.5 得分 78.7%,高於 GPT-5.4 的 75.0%。
數學推理(FrontierMath)
在 Tier 1-3 級別,GPT-5.5 得分 51.7%(GPT-5.4 為 47.6%);在最困難的 Tier 4,GPT-5.5 得分 35.4%(GPT-5.4 為 27.1%)。Claude Opus 4.7 在 Tier 4 只有 22.9%,顯示 GPT-5.5 在頂級數學推理上確實有明顯優勢。
工具使用(Toolathlon)
GPT-5.5 得分 55.6%,GPT-5.4 為 54.6%,Gemini 3.1 Pro 為 48.8%。
值得一提的是,根據獨立評測機構 Artificial Analysis 的編碼指數,GPT-5.5 在提供「頂尖智慧水準」的同時,成本僅為其他競爭性前沿編碼模型的一半——這意味著同樣的預算可以完成更多工作。
代理式編碼:真正有感的能力躍進
在所有的能力提升中,代理式編碼(Agentic Coding)大概是開發者最有感的項目。
OpenAI 在 SWE-Bench Pro(評估模型解決真實 GitHub Issue 的能力)上,GPT-5.5 達到 58.6%——單次 pass 就能解決比前代更多的任務。而在內部評估 Expert-SWE(中位數預估人類完成時間為 20 小時的長期編碼任務)上,GPT-5.5 同樣超越了 GPT-5.4。
但更有說服力的或許是來自實際使用者的回饋。
Dan Shipper,媒體公司 Every 的創辦人兼 CEO,形容 GPT-5.5 是「我用過第一個具備嚴謹概念清晰度的編碼模型」。他在發布應用後花了好幾天 debug 一個上線後的問題,最後請來最好的工程師重寫部分系統。為了測試 GPT-5.5,他有效倒帶了時間:讓模型看看壞掉的狀態,能不能產出工程師最終選擇的那種重寫方案。GPT-5.4 做不到,GPT-5.5 做到了。
Pietro Schirano,MagicPath 的 CEO,則在 GPT-5.5 合併一個包含數百個前端和重構變更的分支時看到了質的飛躍——這個分支要合併的主要分支也已經大幅改動,但 GPT-5.5 在一次操作中花了約 20 分鐘就完成了合併。
一位在 NVIDIA 擁有早期存取權限的工程師甚至說:「失去 GPT-5.5 的感覺就像被截肢了一樣。」
Cursor 的聯合創辦人兼 CEO Michael Truell 表示:「GPT-5.5 比 GPT-5.4 明顯更聰明、更持久,編碼表現更強,工具使用更可靠。它能在不提早停止的情況下持續執行任務更長時間——這對我們用戶委託給 Cursor 的複雜長期工作來說至關重要。」
代理式知識工作:從寫程式到寫報告
GPT-5.5 的進步並不局限於編碼。因為模型能更好地理解使用者意圖,它在知識工作的完整循環中表現得更加自然:尋找資訊、理解重點、使用工具、檢查產出、將原始素材轉化為可用的成果。
在 Codex 中,GPT-5.5 在產生文件、試算表和簡報方面都優於 GPT-5.4。阿爾法測試者表示,在營運研究、試算表建模、以及將混亂的業務輸入轉化為計畫等任務上,GPT-5.5 超越了過去的所有模型。
OpenAI 內部團隊已經在實際工作流程中運用這些優勢。目前超過 85% 的 OpenAI 員工每週使用 Codex,涵蓋軟體工程、財務、公關、行銷、數據科學和產品管理等部門:
- 公關團隊用 GPT-5.5 在 Codex 中分析了六個月的發言請求數據,建立了評分和風險框架,並驗證了一個自動化的 Slack 代理——低風險請求能自動處理,高風險的則仍交由人工審查。
- 財務團隊用 Codex 審查了 24,771 份 K-1 稅表,共 71,637 頁。透過排除個人資訊的工作流程,團隊相比去年加速了兩週完成這項任務。
- Go-to-Market 團隊的一名員工自動化了每週業務報告的生成,每週節省 5 到 10 小時。
科學研究的跳躍:從程式碼到證明
GPT-5.5 在科學研究領域展示的進步,可能比編碼能力的提升更具長遠意義。
在 GeneBench(一項專注於遺傳學和定量生物學中多階段科學數據分析的新評測)上,GPT-5.5 比 GPT-5.4 有明顯提升。這些問題要求模型在監督訊號最少的情況下,對潛在模糊或有誤的數據進行推理,處理隱藏的干擾變數或品質控管失敗,並正確實現現代統計方法。值得注意的是,這些任務往往對應科學專家需要數天才能完成的項目。
在 BixBench(基於真實世界的生物資訊學和數據分析)上,GPT-5.5 在已公布成績的模型中達到了領先水準。
但最令人驚嘆的或許是數學方面的成果。OpenAI 透露,一個使用自訂 harness 的內部版 GPT-5.5 幫助發現了一個關於 Ramsey 數的新證明——這是組合數學中的核心問題。Ramsey 數大致在問:一個網路需要多大才能保證某種秩序必然出現?這個領域的成果很少,而且通常在技術上非常困難。GPT-5.5 發現了一個關於 off-diagonal Ramsey 數的長久漸進事實的證明,隨後在 Lean 定理證明器中得到驗證。這不是程式碼生成,而是實質性的數學貢獻。
免疫學教授 Derya Unutmaz 使用 GPT-5.5 Pro 分析了包含 62 個樣本和近 28,000 個基因的基因表現數據集,產出了一份詳細的研究報告——不僅總結了發現,還提出了關鍵問題和見解。他表示這項工作需要他的團隊花費數月才能完成。
波茲南亞當密茨凱維奇大學的數學助理教授 Bartosz Naskręcki 則用 GPT-5.5 在 Codex 中,從一個提示詞在 11 分鐘內構建了一個代數幾何應用——將二次曲面的交集可視化,並將結果曲線轉換為 Weierstrass 模型。對他來說,更大的轉變是 Codex 現在不再只是一個寫程式碼的工具,而是一個從開始到結束處理整個工作流程的環境。
GPT-5.5 Thinking:更快更精確的推理體驗
在 ChatGPT 中,GPT-5.5 Thinking 模式為需要深入推理的問題提供了更快的協助。OpenAI 強調,這不是簡單的加速——GPT-5.5 在保持與 GPT-5.4 同等延遲的同時,實現了更高的智慧水準,而且完成相同 Codex 任務所需的 token 數量顯著減少。
這意味著兩件事:一是面對複雜問題時回應更快,二是同樣的 API 預算可以完成更多工作。對經常使用 ChatGPT 進行研究、資訊綜合和文件密集型任務的使用者來說,GPT-5.5 Thinking 的改進尤其明顯。
安全框架:最強防護
OpenAI 表示 GPT-5.5 搭載了有史以來最強的安全防護措施。這次的發布流程包括:
- 完整的標準安全評估框架
- 內部和外部紅隊測試
- 針對先進網路安全與生物能力的專項測試
- 收集來自近 200 個早期合作夥伴對真實使用案例的回饋
值得一提的是,API 版本的部署因為需要不同的安全機制,OpenAI 還在與合作夥伴和客戶就大規模服務的安全要求進行密切合作。這種分階段發布策略顯示,OpenAI 對模型能力的信心越高,就越謹慎地管理發布風險。
GPT-5.5 對開發者社群的實際意義
對於每天在工作中使用 AI 工具的開發者來說,GPT-5.5 帶來的不是某個單一功能的升級,而是整體工作方式的變化。
它的編碼能力提升不只是更多 benchmark 分數——真實世界的測試者普遍回報,GPT-5.5 能更好地理解程式碼庫的整體架構、更準確地判斷修復應該落在哪裡、以及在開始之前就預先考慮測試和審查需求。用一位工程師的話來說,GPT-5.5 比過去的模型需要「少得多的實作修正」,讓人對它的規劃更有信心。
這種變化對於長期承接複雜程式碼庫維護工作的開發團隊來說尤為重要。當一個模型不僅能寫程式碼,還能理解為什麼某個東西會壞掉、修復會影響哪些周邊模組、甚至自行完成跨檔案的重構時,開發者可以將更多精力集中在架構設計和創意決策上。
誰應該關注這次更新
如果你是 獨立開發者或小型團隊,GPT-5.5 在 Codex 和 ChatGPT 中的可用性意味著你能以更低的成本獲得接近頂尖水準的 AI 輔助。如果你每天都在寫程式碼除錯,這可能是你近期看到的最有感的後續改進。
如果你在 大型企業的開發或數據團隊 工作,Business 和 Enterprise 用戶的優先存取權限讓你的團隊能立即開始評估。從 OpenAI 內部團隊的使用案例來看,財務和數據分析類任務的自動化潛力尤其值得關注。
如果你在 學術研究或科學計算領域,GPT-5.5 在數學推理和生物資訊學上的表現暗示著新的可能性——不是取代研究人員,而是作為一個真正的「共同研究員」來加速發現的過程。
當然,如果你目前對 GPT-5.4 或 Claude Opus 4.7 已經相當滿意,GPT-5.5 可能不會讓你感覺需要立刻轉換。它的進步是真實的、可測量的——但就像所有模型迭代一樣,最終還是要看它在你具體的工作流程中能解決哪些實際問題。
與競品的比較:站穩腳跟的差異化
從 benchmark 數據來看,GPT-5.5 在多數維度上都領先 Claude Opus 4.7 和 Gemini 3.1 Pro——特別是在需要多步驟推理和工具協調的場景中。Claude Opus 4.7 在 Terminal-Bench 2.0(69.4% 對 82.7%)和 GDPval(80.3% 對 84.9%)的差距最為明顯。
但也需要注意到,GPT-5.5 的核心優勢並非單一指標的碾壓,而是兩項特性的組合:更高的智慧水準 + 更低的成本。根據 Artificial Analysis 的編碼指數,GPT-5.5 在成本效益上達到了競爭對手的一半。這對於需要大規模使用 API 的企業和開發者來說,可能是決定性的因素。
而在電腦操作(OSWorld-Verified)方面,GPT-5.5 的 78.7% 雖然領先,但差距並不大——這說明這項能力還未進入「質變」階段。在工具使用(Toolathlon)方面也有類似情況,各家模型的差距正在縮小,而不是拉大。
GPT-5.5 的發布時間點也值得注意。它是在 OpenAI 經歷了 GPT-5 到 GPT-5.4 的快速迭代後推出的,並且搭載在 NVIDIA GB200 NVL72 系統上運算。NVIDIA 企業 AI 副總裁 Justin Boitano 表示,這個硬體平台讓模型「能夠將數天的除錯時間縮短為數小時,並將數週的實驗轉變為隔夜的進展」。
GPT-5.5 的到來不是一個革命,而是一次紮實的迭代——但它迭代的方向是對的。當一個模型能在保持相同回應速度的同時變得更聰明,能用更少的 token 完成更多工作,並且能在編碼、知識工作和科學研究之間無縫切換時,它就不只是一個更好的問答引擎,而是一個更好的工作夥伴。
對於開發者來說,最直接的建議是:如果你已經在用 Codex 或 ChatGPT 做日常開發,打開 GPT-5.5 試試看。你可能會發現它解決問題的方式確實和過去不一樣——不是更快地回答你的問題,而是更少地需要你告訴它應該做什麼。
因為在真實的工作中,一個知道該做什麼的夥伴,往往比一個只會回答問題的夥伴更有價值。