OpenAI、ChatGPTの画像生成モデルを強化

Wired / 2026/4/22

📰 ニュースIndustry & Market MovesModels & Research

共有:

要点

OpenAIは、ChatGPTで利用できる新しい画像生成AIモデル「ChatGPT Images 2.0」を発表しました。
本モデルは、1つのプロンプトから複数枚の画像を生成でき、例えば研究用冊子のようなまとまった内容の画像出力にも対応します。
画像生成に加えてテキスト出力も可能で、中国語やヒンディー語などの非英語言語にも対応しています。
同モデルはChatGPTおよびCodexのユーザーにグローバルに提供され、より強力なバージョンも用意されています。
今回の強化は、チャットから画像・テキストまでを一体化して作れるクリエイティブ制作体験を押し広げる動きといえます。

Save Storyこの記事を保存

OpenAIは火曜日、新しい画像生成AIモデルを発表しました。その名も「ChatGPT Images 2.0」です。このモデルは、1つのプロンプトから、研究用の冊子全体のように複数の画像を生成できるだけでなく、テキストも出力可能で、中国語やヒンディー語のような非英語の言語にも対応しています。このリリースは、ChatGPT と Codex のユーザー向けに世界中で利用可能で、より強力なバージョンは有料の加入者向けに提供されます。

大手のAI企業が新しい画像モデルをリリースすると、関心を呼び戻して利用を後押しすることがあります。特に、SNSのユーザーが「ミーム化しやすい」トレンドを取り入れ、自分自身の画像を変換するようになると効果は大きくなります。昨年、Googleが「Nano Banana」モデルを公開したことは、同社にとって大きな出来事でした。ユーザーがオンラインに超リアルなフィギュアとして自分の姿を投稿し始めたとき、特に注目を集めました。今年の初めには、ユーザーがAIが生成した風刺画（カリカチュア）を共有したことで、ChatGPT Imagesがソーシャルメディアで話題になりました。

Image may contain Publication Advertisement Poster Face Head Person Adult Wedding Accessories and Sunglasses

何が違うのか？

新しいモデルがChatGPTの「推論」機能を使えるため、Images 2.0は最近の情報についてインターネットを検索し、同時に複数の画像を生成できます。要するに、このボットは追加の手順を用いて、1つのプロンプトからより徹底した生成結果を出力できるということです。さらにImages 2.0の知識のカットオフ日（参照できる最終日）も更新されており、2025年12月です。

これはまた、新しいモデルの出力がよりきめ細かいことも意味します。たとえば私は、サンフランシスコの翌日の天気予報と、やる価値のあるアクティビティを使ってインフォグラフィックを作成しました。ChatGPTが生成した画像には、雨の日の天気の詳細が正確に含まれているほか、フェリービルディング、カストロ・シアター、Painted Ladiesの家々、トランスアメリカ・ピラミッドの“それらしく見える”絵が正確に描かれていました。

加えて、Images 2.0は、画像出力の独自のアスペクト比（縦横比）を求めるユーザーに対して、よりカスタマイズしやすくなっています。新しいモデルは、3:1の横長から1:3の縦長までの範囲で画像を生成でき、ユーザーはプロンプトの中でAIツールに対して画像サイズを調整するよう指定できます。

返却形式: {"translated": "翻訳されたHTML"}

第一印象

新しいモデルで数時間かけて画像を生成した後、私は概ね、文字の描画能力に感心しました。少なくとも英語では。というのも、少し前までは、主要な各モデルの画像出力でも、文字が大量に崩れていたり、余計な文字が混じった単語が含まれたりすることがよくありました。ChatGPTは2年前の時点で、画像に正確にラベルを付けることに苦戦していました。Images 2.0の、よりきれいで複雑な出力が出ているのは、改良が続いている兆候です。Googleもまた、Nano Bananaの最近の反復において、文字が写った画像の出力を改善することに注力しています。

画像には広告のポスター、人物、飲み物、コーヒー、コーヒーカップ、衣服、コート、ジャケットが含まれる可能性があります

新しいモデルでさまざまな言語の出力を試すにあたり、私はChatGPTに、ティモテ・シャラメをテーマにしたコラージュのポスターを生成するよう依頼しました。まるで彼の中国のファン層の誰かが作ったかのようにです。出力には、映画スターのフォトリアルに見える画像がいくつか含まれており、伝統的な服を着せたものや、猫の耳を描き足したものもありました。AIのコラージュは細部にこだわるタイプで、テキストの断片が20種類以上あり、さらに餃子、タピオカドリンクのカップ、パンダの画像も入っていました。

私はその言語を話せないので、ボットに翻訳を促しました。基本的なプロンプトは「そのテキストは何て書いてあるの？」です。ChatGPTの返答は、自分自身の出力を批判する内容でした。

「その多くは偽物、あるいは意味の薄い（ほとんど判別不能な）AIテキストで、中国のミーム投稿のポスター文のように見せかけられているから、すべてがきれいに翻訳できるわけではありません」と、ChatGPTの出力には一部、このように書かれていました。さらにChatGPTは、正確そうに見える点と、明らかにおかしい点を挙げるリストを作る過程で、同様の指摘を続けました。「チェックリストのカードや右側の装飾的な線など、見た目が明らかに崩れていたり、日本語っぽい文字が混ざった部分もいくつかあります。これらは主に、東アジアのファン編集の文章に似せるために作られた、正確な文というよりは無意味なものです。」

画像にはティモテ・シャラメ、ティモテ・シャラメ、ティモテ・シャラメ、ティモテ・シャラメ、そしてティモテ・シャラメが含まれている可能性があります

つまり、新しいChatGPT Imagesモデルは英語でテキストを生成する際の私の初期テストでは良好な結果を示したものの、世界中のユーザーがそれぞれの言語で生成する場合に同様の結果が得られるかどうかは確信が持てません。とはいえ、AI画像向けの英語出力を改善するためにOpenAIが着実に前進していることを考えると、世界各地のユーザーのデータが組み合わさることで、本モデルの今後の反復においてさらに改善がもたらされるとしても不思議ではありません。