GPT-4o 原生圖像生成:OpenAI 把 DALL-E 殺死了,但這不是壞事

GPT-4o原生圖像生成vs DALL-E:技術差異、SFD實驗室實測結果,以及對內容創作者和AI圖像工具的影響分析。

標籤:GPT-4oAI图像生成OpenAIDALL-E多模态
專屬插圖
GPT-4o 原生圖像生成:OpenAI 把 DALL-E 殺死了,但這不是壞事

發生了什麼

2026年初,OpenAI悄悄推送了一個改變AI圖像生成格局的更新:GPT-4o現在可以原生生成圖像了。不是調用外部DALL-E接口,而是直接在對話裡、在多輪上下文裡、在理解指令的同時生成圖像。

這聽起來只是架構層面的整合,但實際用起來,差距非常明顯。

和之前DALL-E有什麼不同

以前的工作流是三步接力:你在ChatGPT裡說「畫一張XXX」→ GPT-4把你的話改寫成DALL-E能理解的提示詞 → 調用DALL-E接口生成圖片 → 結果回傳給你。每一步都有信息損耗。

現在GPT-4o是這樣的:模型直接理解你的意圖,在同一個上下文裡生成圖像。更重要的是,它能做到以前做不到的事:

  • 上下文連貫性:「把這張圖裡的人換成戴眼鏡的」——它記得上一張圖
  • 文字渲染:圖裡的英文字母不再亂碼,繁中仍在改善中
  • 精確指令遵循:佈局需求執行率大幅提升
  • 迭代修改:「把背景改成白色,保持其他不變」——現在穩定多了

實測:我們拿它干了什麼

SFD實驗室測試了50本BACAKU書籍封面,結果:

  • 視覺品質:明顯優於幾何圖案腳本生成,有書籍封面的「感覺」
  • 批量速度:約8-12秒/張,50張約7分鐘,可接受
  • 問題:文字渲染仍有約15%亂碼,書名含特殊字符時容易出問題
  • 總體評價:封面草稿和原型設計完全夠用,量產還需人工校驗

誰受影響最大

短期內受衝擊最明顯的不是Adobe或Midjourney,而是把DALL-E包裝一層賣給不懂技術用戶的套殼產品——議價空間驟然收窄。

Midjourney目前還有優勢:社區生態、訓練數據質量、V6模型的藝術風格。但在「夠用就行」的商業場景裡,GPT-4o的原生集成已經開始替代它了。

對內容創作者意味著什麼

好消息:「寫文章+配圖」這件事的門檻又低了一截。現在可以在同一個對話裡說「根據這篇文章,生成一張適合放在開頭的配圖」,直接出圖。

壞消息(或者說現實):當所有人都用同一個工具,差異化越來越難。真正的視覺品牌力,還是要靠有辨識度的風格設定。

接下來會怎樣

GPT-4o圖像生成目前最大的問題是可重複性差——同一個提示詞,兩次結果差異很大,不適合需要品牌一致性的場景。統一多模態的方向是對的,但要做到「想要什麼就能精準出什麼」,還差得遠。

SFD編者注:我們目前的策略是:BACAKU封面草稿用GPT-4o,定稿用Pillow腳本生成(確保風格一致性)。AI生成用於「找感覺」,程序生成用於「批量交付」。兩者互補,不互斥。

留言區

歡迎分享你的想法!

發表留言

0/500

載入留言中…