GPT-4o 原生圖像生成：OpenAI 把 DALL-E 殺死了，但這不是壞事

發生了什麼

2026年初，OpenAI悄悄推送了一個改變AI圖像生成格局的更新：GPT-4o現在可以原生生成圖像了。不是調用外部DALL-E接口，而是直接在對話裡、在多輪上下文裡、在理解指令的同時生成圖像。

這聽起來只是架構層面的整合，但實際用起來，差距非常明顯。

以前的工作流是三步接力：你在ChatGPT裡說「畫一張XXX」→ GPT-4把你的話改寫成DALL-E能理解的提示詞 → 調用DALL-E接口生成圖片 → 結果回傳給你。每一步都有信息損耗。

現在GPT-4o是這樣的：模型直接理解你的意圖，在同一個上下文裡生成圖像。更重要的是，它能做到以前做不到的事：

SFD實驗室測試了50本BACAKU書籍封面，結果：

短期內受衝擊最明顯的不是Adobe或Midjourney，而是把DALL-E包裝一層賣給不懂技術用戶的套殼產品——議價空間驟然收窄。

Midjourney目前還有優勢：社區生態、訓練數據質量、V6模型的藝術風格。但在「夠用就行」的商業場景裡，GPT-4o的原生集成已經開始替代它了。

好消息：「寫文章+配圖」這件事的門檻又低了一截。現在可以在同一個對話裡說「根據這篇文章，生成一張適合放在開頭的配圖」，直接出圖。

壞消息（或者說現實）：當所有人都用同一個工具，差異化越來越難。真正的視覺品牌力，還是要靠有辨識度的風格設定。

GPT-4o圖像生成目前最大的問題是可重複性差——同一個提示詞，兩次結果差異很大，不適合需要品牌一致性的場景。統一多模態的方向是對的，但要做到「想要什麼就能精準出什麼」，還差得遠。

SFD編者注：我們目前的策略是：BACAKU封面草稿用GPT-4o，定稿用Pillow腳本生成（確保風格一致性）。AI生成用於「找感覺」，程序生成用於「批量交付」。兩者互補，不互斥。