「DALL-E」という名前で親しまれてきた ChatGPT の画像生成は、いま世代交代の渦中にあります。OpenAI は 2026年5月12日に DALL-E 2 / DALL-E 3 の提供を終了し、画像生成は会話AIに溶け込んだ後継「GPT Image」系へ完全に置き換わりました。本ガイドは「会話で画像を作る」価値はそのままに、いま実際に動いている仕組み・強み・注意点を、2026年時点の事実で整理し直します。
From DALL-E to GPT Image
01いま「DALL-E」と呼ばれているものの正体
かつての DALL-E は、ChatGPT があなたの言葉を解釈するAIと画像を描く別のAI(拡散モデル)を順番に呼び出す、2段構えの仕組みでした。現在はこの構造が一新され、画像生成が言語モデルそのものの一機能として統合されています(OpenAI が「omnimodel」と呼ぶ方向)。だから会話の文脈をそのまま画像に反映できます。
FIG.1 「会話AI → 画像AI」の受け渡し型から、ひとつのモデルが両方を担う統合型へ
名前としての「DALL-E」は役目を終えましたが、ChatGPT 上で会話しながら画像を作る体験はむしろ自然になりました。本記事で「DALL-E 的な使い方」と言うとき、それは現行の GPT Image を指します。
02世代の流れ:何が、いつ置き換わったか
混乱しやすいので、ここで時系列を押さえます。モデル名と料金は変わりやすいので、最新は必ず公式(OpenAI)で確認してください。