ChatGPT Images 2.0 正式登場:生成式圖片進入「可編輯、可迭代」的新階段
OpenAI 在 4 月 21 日透過一場線上直播,正式推出了 ChatGPT Images 2.0。
這不是一般的版本號推進。從發布的 system card 和開發者文檔來看,OpenAI 從底層重寫了圖像生成的引擎架構。之前的模型是「給你一張圖就走」的單向輸出,2.0 版本則升級成一個「能夠理解、修改、迭代圖片」的雙向系統。
看看社群反應——HackerNews 上超過 1000 個 upvote、接近 1000 則留言——顯然這不只是個小更新。開發者社群的熱烈討論,本身就說明了這次升級的份量。
h2. 從 system card 看技術細節
OpenAI 這次發布附帶了一份相當詳細的 system card,公開了安全評估和技術架構的細節。這在 OpenAI 的發布文化中並不多見——過去他們對模型內部的揭露通常比較保留。
根據 system card,Images 2.0 在安全層面進行了多面向的評估,包括生成不當內容的風險、浮水印的穩健性、以及模型可能被用於錯誤資訊傳播的場景。這份文件還特別提到了在訓練資料中過濾敏感內容的方式,以及模型在面對「對抗性提示」時的行為測試結果。
對開發社群來說,這份 system card 提供了一個難得的視窗,可以一窺 OpenAI 在安全工程上的實務做法。
h2. 不只是「會畫圖」,而是「懂圖」
要理解 ChatGPT Images 2.0 的意義,得先回頭看看舊版做了什麼。
之前的 ChatGPT 圖像生成,說穿了就是一個 text-to-image 的 API 串接。你給一段提示詞,它生成一張圖,然後就結束了。如果你想微調,你得重寫提示詞,重新生成,然後再次碰運氣——結果可能又是一個完全不一樣的構圖。這個過程不僅沒有效率,而且常常讓你覺得「AI 根本聽不懂人話」。
Images 2.0 最大的改變,就是把圖像生成變成一個對話式的編輯過程。
根據 OpenAI 在直播中的實際展示,你可以直接對一張已生成的圖片提出修改要求——「把這個人的衣服改成藍色」「把背景換成沙灘」「把這隻貓往右移一點」——然後模型會理解你的指令,只修改指定的部分,而不是整張圖整組重來。
這背後的技術,奠基於新的 gpt-image-2 端點。API 定價維持與 gpt-image-1.5 大致相同,輸出價格甚至略為調降。根據開發者文檔,高品質 1024×1024 圖片和 1024×1536 等不同尺寸之間的定價邏輯有所調整,整體來看生成成本是下降的。
更重要的變化在架構層面。這套新架構讓模型具備了「對圖像的理解能力」,而不只是單純的生成能力。當你說「把貓往右移」,模型需要知道「貓在哪裡」「往右是多少」「移之後的背景是什麼」——這些都是過去文字生成圖像模型做不到的。
h2. 畫質真的有進步嗎?
技術規格說得再好,最終還是要看實際畫出來的成果。
從 HN 討論來看,社群對畫質的普遍反應是正面的。有些細節值得細說:
過去 ChatGPT Image 1.5 雖然解決了那個被戲稱為「尿黃濾鏡」的色調問題——早期版本生成的圖片總是帶有一種暖黃色調,讓人覺得不自然——但它的產出風格還是偏單調。尤其是和 Google Gemini 的圖像生成相比,風格多樣性明顯不足。
Images 2.0 在這方面有了顯著改善。雖然仍有開發者指出:「我還是看到那個色調出現在他們的樣本裡,沒那麼嚴重了,但那邊的人真的很愛那種色調。」——這可能與 RLHF 訓練過程中,資料標註者的審美偏好有關,不完全是模型本身的問題。
整體來說,色調問題已被大幅緩解,風格選擇變多了,細節處理也更細膩。
另外一個值得關注的整合點:ChatGPT Images 2.0 的生成能力現在整合到 ChatGPT 的訂閱方案中。用戶有獨立的使用額度,不與文字對話額度共用。這對一般用戶來說是一個實際的利多——你不再需要在不同工具之間切換,一個 ChatGPT Plus 帳號就能同時處理文字、程式碼和圖像生成。
h2. SynthID 浮水印:技高一籌還是聊勝於無?
這可能是 ChatGPT Images 2.0 最具爭議性的一個面——或者說,整個 AI 圖像生成產業最頭痛的問題。
OpenAI 在 system card 中明確指出,Images 2.0 生成的圖片會嵌入 SynthID 浮水印。SynthID 是 Google DeepMind 開發的技術,能在圖像的像素層嵌入人眼無法察覺的數位標記。
根據開發者社群的反饋,SynthID 在對抗一般用戶的社交分享場景(重新壓縮、裁切、色調調整)時表現不錯。系統卡中也強調 SynthID 是「不可察覺的、穩健的、且與內容相關的」浮水印方案。
但問題來了:對於有技術能力的人來說,這種浮水印並非無法繞過。
一位 HN 使用者引用了 2023 年一篇論文指出:任何不可見的浮水印理論上都可以透過「生成式再生」來移除——把圖片通過 img2img 或 VAE 重新生成一遍,模型會重建視覺上完全相同的圖像,但從不同的潛在空間起點出發,浮水印就不復存在了。
這帶出了一個核心矛盾:浮水印能防住懶人造假,但防不住用心造假。
HN 社群的討論非常熱烈,大致分為幾種觀點。
一方認為:「與其靠 AI 公司自己打浮水印,不如讓相機製造商或手機廠商對真實照片做數位簽章。」——「用封鎖清單的方式是錯的方向。更好的做法是讓主要相機製造商對真實影像進行加密簽章。」
另一方則反駁:拍照再翻拍、投影到感光元件再輸入、在感測器和晶片之間嵌入偽造數據——這些方法都能繞過硬體簽章。最終,眼見為憑這個古老的信任機制,在 AI 時代可能永遠無法恢復。
也有人從另一個角度提出看法:「SynthID 能抵抗基本的轉換操作,包括截圖和翻拍。即使可能被擊敗,但它幫助過濾掉那些最粗糙的偽造——過去幾個月我就看過好幾張廣泛流傳的錯誤資訊圖片,在 SynthID 檢查中直接現形。」
換句話說,SynthID 不是萬能藥,但它是一個務實的防線。就像門鎖一樣——不是為了擋住所有小偷,而是為了擋住那些隨手拉門的人。
h2. 當生成圖像變得「太容易」的社會衝擊
ChatGPT Images 2.0 帶來的不只是畫質進步,更是一種可用性的躍進。
想像一個實際場景:過去你要做一張社群媒體貼文配圖,流程是打開 Canva、找模板、調整字型、匯出、可能還要來回修改好幾次。現在你只需要告訴 ChatGPT:「幫我為這篇部落格生成一張封面圖,風格簡約,主色調藍色系,在左側留白放標題。」然後你可以不斷迭代調整——「字體太大」「換成更柔和的藍色」「在右下角加一個小圖標」——直到滿意為止。
這個流程的變化,讓圖像設計對非專業人士變得觸手可及。但與此同時,它也引發了 HN 社群一個更深層的擔憂。
有開發者直言:「我寧願知道 OpenAI 每個 token 的真實成本,而不是祈禱這些創投資助的 token 永遠這麼便宜。」
這句話背後有兩個層次的問題。第一是商業模式的永續性:當圖像生成變得極其便宜且方便時,這個市場能不能支撐它的基礎設施成本?第二則是數量對品質的衝擊——當每個人每分鐘都能產出數十張高品質圖片時,圖像的價值會被稀釋到什麼程度?
更令人擔憂的是社群對未來場景的精準描述:「某個政治人物被拍到做某件事,他會讓他的團隊放出上千張他做『壞事』的照片,然後說這是抹黑。與此同時,他的對手也會做同樣的事——結果大眾對任何影像證據都失去信任。這只是其中一個愚蠢的例子,人們會有更好的佈局。全球協調的假內容發布、針對性的(可能涉及濫用的)內容——虛擬綁架將會盛行,全自動化、規模化。」
這不是科幻小說。這就是一個能生成高品質圖像、且能持續迭代的模型,在一個沒有有效辨真機制的社會中,必然會發生的場景。
h2. 從開發者角度看 gpt-image-2 API
對於台灣的開發者來說,Images 2.0 也意味著新的 API 落地機會。
gpt-image-2 模型已透過 OpenAI API 提供服務,端點文檔可在 developers.openai.com 查看。定價結構與 gpt-image-1.5 接近,某些尺寸略有調降。根據開發者社群的回報,gpt-image-2 的輸出品質量在不同尺寸下表現穩定,特別是在中低解析度(512×512 到 1024×1024)的品質,比前一代有顯著提升。
對開發者而言,最具價值的可能是這個 API 的應用場景:
首先是電商領域。上傳一張產品照,要求模型在不同背景、不同角度下重新生成,不需要重新拍攝商品圖——這對電商業者來說是實實在在的成本節省。
其次是設計迭代工作流。提供一個草稿,讓 AI 根據文字指令逐步改進,而不是每次都要重新生成。這讓設計師可以把 AI 當作助手,而不是一個需要反覆磨合的工具。
第三是多輪編輯的 API 整合。過去的圖像生成 API 設計是 stateless——每次請求都是獨立的。但 gpt-image-2 開始支援基於對話上下文的編輯,這對需要整合 AI 圖像編輯的應用開發者來說,是一個重要的 API 設計方向轉變。
對比過去需要用 Stable Diffusion + ControlNet + img2img 等工具組合才能實現的編輯流程,gpt-image-2 提供了一個更精簡的 API 介面。當然,開源方案在自訂性和離線運行方面仍有不可取代的優勢,但對於快速開發和原型驗證來說,這個 API 的易用性確實更高。
h2. 競品比較中的位置
ChatGPT Images 2.0 的發布時間點很有意思。就在不久前,Google Gemini 的 Nano Banana 圖像生成功能獲得了大量好評,許多人認為它在品質上超越了 ChatGPT 最初的圖像模型。
而現在 OpenAI 以 2.0 版本回應。從 HN 評論來看,有開發者直接表示 Images 2.0「提供了與 Gemini 的 Nano Banana Pro 完全相同的功能」。這不只是品質追趕,更是一種競爭對位的宣示。
不過,這背後反映出一個更大的趨勢:AI 圖像生成的競爭正在從「誰畫得更漂亮」,轉移到「誰能更好地理解你的編輯意圖」。畫質已經不再是唯一的比較標準——編輯能力、迭代效率、與其他功能的整合程度,才是下一個戰場。
對比來看,OpenAI 的優勢在於 ChatGPT 的統一生態——同一個對話中你可以同時處理文字、程式碼、圖片,不需要切換工具。Gemini 的優勢則在於更成熟的跨產品整合——Gmail、Docs、Workspace 都是它的舞台。
而對於開源模型社群來說,這場競爭其實是一件好事。當頂級商業模型的品質持續提升,開源社群會有更明確的追趕目標,而且可以從這些模型的 system card 和技術報告中學習——這次 OpenAI 釋出的 system card 就提供了不少有價值的安全評估細節。
h2. 對台灣開發者的實際意義
說回台灣。ChatGPT Images 2.0 對台灣的開發者和創作者意味著什麼?
如果你經營電商或行銷相關的業務,圖像生成成本的下降和品質的提升是第一層好處。過去你可能需要找設計師製作產品展示圖、Banner、社群素材,現在 AI 能在幾分鐘內生成大量選項,而且可以根據你的反饋逐步調整。
如果你是獨立開發者或小團隊,gpt-image-2 API 的易用性讓你可以快速在產品中加入圖像生成功能,不需要投入大量時間去佈署開源模型。對於 MVVM 快速驗證階段的產品來說,這是一個實用選項。
如果你只是普通的 AI 使用者,Images 2.0 讓 ChatGPT 變成了一個更好的設計夥伴。從撰寫文章、生成配圖、到反覆修改,整套流程可以在同一個對話中完成。這不只是節省時間——它改變了創作的方式。
當然,如果你對資料隱私有較高要求,或者需要完全離線的圖像生成能力,開源方案(Stable Diffusion、Flux 等)仍然有不可取代的優勢。Cloud API 有它的便利性,也有它的限制。
h2. 回到起點
ChatGPT Images 2.0 的本質,不只是更好的圖像生成。
它代表的是 OpenAI 對「AI 能做什麼」這個問題的一次重新回答。過去我們把圖像生成當作一個獨立任務:給一段文字,得到一張圖。但 Images 2.0 把這個過程變成了對話式創作——你可以和 AI 一起設計、一起修改、一起完成一件作品。
這種變化聽起來不大,但從使用者的角度來說,它是從「命令」到「協作」的根本轉變。
當然,品質和安全問題仍需要時間檢驗。SynthID 能防住什麼人、模型在實際使用中的辨色力和構圖理解力如何,這些只能等更多開發者和使用者去實測後才會知道。HN 那將近 1000 則留言中,有許多疑慮和問題還沒有答案。
但有一件事是確定的:AI 圖像生成的門檻,又被往下推了一層。這對創作者、設計師、行銷人員,以及所有需要用圖的人來說,都意味著你手中的工具,又變強了——也意味著你有責任更謹慎地使用它。
ChatGPT Images 2.0 現在已經對所有 ChatGPT 用戶開放。如果你想看看這個「新階段」長什麼樣,進去給它一個指令就好。你不一定會對結果滿意,但你會發現——這個過程,確實和以前不一樣了。