OpenAIの「ChatGPT Images 2.0」登場:多言語テキストやインフォグラフィック、スライド、地図、さらには漫画まで“ほぼ完璧”に生成

VentureBeat / 2026/4/22

📰 ニュースSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • OpenAIはChatGPTの画像生成機能「ChatGPT Images 2.0」を全プランに公式展開し、多言語のテキスト、フルのインフォグラフィック、スライド、地図、さらには漫画のような表現まで生成できるとしています。
  • 画像内に長文テキストや複数のテキストパネルを同一画像内で組み込めるほか、UIや人気Webサイトのスクリーンショットを高い写実性で再現できる点が目立っています。
  • API向けには新たな「gpt-image-2」モデルを提供し、ChatGPT加入者向けには「Thinking」機能群も用意されるなど、視覚メディアを“言語”として扱う方針の転換を示しています。
  • 同時に、床面図(フロアプラン)や画像グリッド、複数の小画像セット、複数角度からのキャラクターモデル生成、さらにユーザーがアップロードした画像への適用にも対応すると説明されています。
  • AI画像生成領域での競争が激化する中、Googleの「Nano Banana 2」等とも比較されつつ、ChatGPT Images 2.0はUI/スクショ再現や複数画像パック生成で優位に見えると報じられています。

OpenAIがChatGPTおよびそのアプリケーション・プログラミング・インターフェース(API)経由でAI画像生成に対して最後の大きな改善をリリースしてから、まだ数か月しか経っていません。すなわち、2025年12月にリリースされた新しい画像生成モデルとしてのGPT-Image-1.5で、指示追従、色、照明が改善されました。

そして今、何週間にもわたるテストを経て、生成AIブームの火付け役となった同社が、さらに大幅で、しかもより印象的な更新を披露するChatGPT Images 2.0を、LM Arena AIでかなり前から(秘密にせず)「duct tape(だましだましのつぎはぎ)」という名前で、OpenAIや他の主要なAIモデル提供事業者が早期のフィードバックを得るために使うサードパーティのテストプラットフォーム上で提供してきたのです。

その間、長い文章のかたまりや、同じ画像内でバラバラのテキストパネルを生成する能力で、早期ユーザーの度肝を抜いてきました。さらに、ユーザーインターフェースや人気ウェブサイト/プラットフォームのスクリーンショットを、ありえないほど現実的に再現すること。OpenAIの共同創設者兼CEOであるサム・アルトマンのような実在の人物の再現。そして、ウェブ調査を実行し、その結果を画像そのものに組み込むこともできます。

そして今日、全プランのChatGPTユーザーに向けて正式に段階的に展開が始まりました。OpenAIはまた、床面図(フロアプラン)、画像グリッド、大小さまざまな多数の画像のセット、さらに複数の角度からのキャラクターモデルを作れること、そしてアップロードされたユーザーの画像に対しても、ほぼこれらすべての機能を適用できると確認しています。

このアップデートは、APIユーザー向けの新しいgpt-image-2モデルと、ChatGPTサブスクライバー向けの「Thinking」機能群を含み、同社がビジュアルメディアをどう捉えるかを根本から変えるものです。公式リリースノートにあるとおり、「画像は言語であって装飾ではない。良い画像は、良い一文がすることを行う――選び、配置し、そして明らかにする」です。

OpenAIはChatGPT Images 2.0について、事前にベンチマークを私たちに共有しませんでしたが、私が見てきたすべての出力から判断して、このモデルは「最先端(state-of-the-art)」の水準で動作していると言って差し支えないでしょう。

この動きは、AI画像モデルの領域で競争が激化していることとも軌を一にしています。とりわけ、2026年2月にGoogleのNano Banana 2画像生成モデル(Gemini 3 Pro Image、Gemini 3.1 Pro Imageとしても知られる)がリリースされたことが挙げられます。こちらも、ChatGPT Images 2.0に似た方法で、画像の中に「焼き込まれた」密度の高いテキストオプションを提供していました。しかし後者は、ユーザーインターフェース、スクリーンショット、複数の画像パックを同時に再現する点で、私の短いテストや、他のユーザーの画像に対する逸話的な観察・推測の範囲でも、Googleの最新モデルの能力さえ上回っているように見えました。

OpenAIの広報担当者や研究者は、報道が増える中で同社が安全性と、AIが生成したものとして画像出力にメタデータでタグ付けするという取り組みへのコミットメントを改めて強調しました。そこにはニューヨーク・タイムズ による最近の報道も含まれており、AIが生成したユーザー作成キャラクター(AI UGC)が、政治的な影響力キャンペーンの一環として、ソーシャルメディア上に大量に投稿される現実的なAI動画の“種(シード)”として使われているという内容です。そこでは「本物のアメリカ人」として体を装う架空の人々の軍隊によって、歴史的に支持されにくかった米国のドナルド・J・トランプ大統領への支持を示すことまで含まれていました。

VentureBeatが、この件について閉鎖的な記者ブリーフィングで直接質問し、GPT Images 2.0が欺瞞的な選挙活動や広告/影響力キャンペーンで使われる可能性について尋ねたところ、OpenAIのChatGPT Imagesにおけるプロダクト・リードであるAdele Liは次のように答えました:

「私たちは安全性とセキュリティを非常に真剣に考えています。そこには、政治や選挙の介入に関わるあらゆることが含まれます。そのため、他のプラットフォームや企業にはそうしたガードレールがないかもしれませんが、ChatGPTにはあります。そして私たちは、ユーザーの監視と保護、また写真が作られていく過程で生まれる影響力についても、非常に真剣に取り組んでいます。ここ数年で、ChatGPTとは異なる基準や哲学を持つ、画像生成分野への新規参入者が増えたのを見てきましたが、私たちはその間ずっとぶれずにやってきました。そして、高度な機能に関してこのモデルを安全で保護された形でリリースできたことを本当に誇りに思っています。」

OpenAIはまた、既定のモデルとしてはGPT-Image-1.5を自社スイート全体で廃止する(デフォルトから外す)ことを確認しました。ただしレガシー対応のためにAPI経由では引き続き利用可能です。この移行は、2.0モデルがカジュアルな制作から価値の高いクリエイティブ作業まで、両方のより優れた置き換えになるというOpenAIの自信を示しています。

AI画像生成の「推論(Reasoning)」時代

Images 2.0における最も重要な技術的進歩は、OpenAIの「O-series」推論能力の統合です。

歴史的に、画像モデルはブラックボックスとして機能してきました。プロンプトを与えると、1つの出力が生成されます。Images 2.0は、「エージェント的(agentic)」なアプローチを導入します。

ユーザーがChatGPT内で「Thinking」モデルを選ぶと、システムは単に「描く」のではなく、最初のピクセルがレンダリングされる前に、画像の構造を調べ、計画し、推論します。

ライブの記者ブリーフィング中、Liは、内部のプロダクト戦略に関する複雑なPowerPointファイルをアップロードして、この推論を実演しました。

単に関連する画像を作るのではなく、モデルはドキュメントの中核となるデータを統合し、正しいロゴを特定し、元のファイルが持っていた特定のスタイル入力を保持したプロフェッショナルなポスターを生成しました。

私の短いテスト――昨夜アクセスを許可され、今朝は数回の生成で試しました――では、ChatGPT Images 2.0はOpenAIの画像モデルとして初めてであり、(Nano Banana 2がもう一つの)わずか2つのモデルのうち、アステカ、マヤ、インカの各帝国がそれぞれの最盛期に占めていた範囲を、地図としてほぼ正確に再現し、さらに凡例も完全に読み取れる状態で出せるようです。そのため、世界の知識や地理に関する教育や社内研修の用途で役立ちます。

この推論能力により、モデルはリアルタイムでウェブを検索して、直近の出来事や特定の技術的な成果物に対する視覚的な正確さを確認することもできます。

また、知識カットオフが大幅に新しい2025年12月に設定されており、現代の文脈にうまく追随できずに苦しんだこれまでの反復からの大きな飛躍になっています。

基盤となるアーキテクチャは「最初から全面的に見直された(revamped from scratch)」と、リサーチリードのBoyuan Chenは述べています。Chenは、モデルが従来のディフュージョン手法なのか自己回帰(auto-regressive)手法なのかを確認することは拒みましたが、シンプルなテキストプロンプトによって、3D風の視点の変化や複雑な空間推論を扱える「ゼネラリストモデル」あるいは「画像のためのGPT」だと説明しました。

精度、多言語対応、そして「ワオ」要素

Images 2.0のプロダクト体験は、タイポグラフィ、言語の多様性、そしてシーケンシャルな一貫性という3つの主要な柱によって定義されます。

AI生成の画像における最も根強い「見破るポイント」の1つは、判読可能なテキストを描画できないことでした。OpenAIはImages 2.0が、この点で「段階的な大きな変化(step change)」をもたらしたと主張しています。モデルは現在、科学的な図、メニュー、インフォグラフィックのポスターのような密度の高い構成においても、読みやすいタイポグラフィを生成できるようになっています。

提供されている「マガジン表紙」サンプル(Open Scifi)を見れば、この精度がよく分かります。すべての見出し、巻号番号、そしてバーコード上の「Display until(表示期限)」の日付までもが、人の手によるレイアウトをなぞるような、くっきりしたプロフェッショナルな位置合わせで描画されています。

この機能は「Thinking(思考)」モードにも広がっています。モデルは、3ページ分の教育用ビジュアル(クイズ付き)さえも生成でき、それらが一貫した指導の流れを保ちます。

OpenAIは、AI画像における長年の西洋中心的なバイアスにも対処してきました。Images 2.0は「ポリグロット(多言語)モデル」と説明されており、非ラテン文字の描画に大きな伸びがあるとされています。具体的には、モデルは日本語、韓国語、中国語、ヒンディー語、ベンガル語において高精度なテキスト生成をサポートするようになりました。

提供されている「Global Language(グローバル言語)」の図(その水の循環を説明するもの)では、モデルが教育用レイアウト内で複雑な韓国語の文字(ハングル)を正常に描画できていることが示されています。

テキストは単に翻訳されるだけではなく、「言語として自然に流れる形で、正しく描画されて」おり、ラベルや説明がデザインにネイティブに組み込まれているように感じられることが保証されています。

ストーリーボードやブランドキャンペーンに取り組むクリエイターにとって、最もインパクトの大きい新機能は、1つのプロンプトから最大8枚の異なる画像を生成できることです。重要なのは、これらの画像がシリーズ全体を通して「キャラクターとオブジェクトの連続性」を維持する点です。

Liは、この機能が、ユーザーが以前は画像を1枚ずつプロンプトし、その後手作業でつなぎ合わせる必要があった「面倒な」ワークフローを解決すると述べました。この機能により、同じビジュアルのDNAを共有する、まるごとのマンガの連載、子ども向けの絵本、あるいは家族のソーシャルメディア向けグラフィック群を作成できます。

ライセンスと提供状況

OpenAIの展開戦略は、プロフェッショナルやエンタープライズでの採用に向けた明確な推進を反映しています。ベースモデルは無料枠を含むすべてのユーザーが利用できますが、高度な「Thinking」と「Pro」の機能は有料プラン向けに用意されています。

  • 無料ユーザー:標準的なタスクのために、ベースのImageGen 2.0モデルにアクセスできます。

  • PlusおよびProユーザー:ツール利用、Web検索、多画像生成を含む「Thinking」機能にアクセスできます。

  • Proユーザー:より高度な画像生成のための「ImageGen Pro」モデルへの追加アクセスを受け取ります。

  • API開発者:gpt-image-2を統合できます。これは最大4K(現在ベータ)に対応し、アスペクト比もワイドな3:1から縦長の1:3まで柔軟に扱えます。

APIにおける料金 は以下のとおりで、前身モデルであるGPT-Image-1.5を踏襲しつつ、実際には出力側で$2引き下げています:

Image
$8.00 for inputs
$2.00 for cached inputs
$30.00 for outputs

Text
$5.00 for inputs
$1.25 for cached inputs
$10.00 for outputs

現時点で明らかなのは、OpenAIが(正確なプラン別マトリクスを公開していないとしても)アクセスに関する3つの実用的なレイヤーを説明している、ということです。

基準となるのはChatGPT Images 2.0で、OpenAIのブログ投稿によれば、これはすべてのChatGPTおよびCodexユーザーが利用でき、コアとなるモデル改善が含まれています。具体的には、命令への追従の向上、テキスト描画の強化、多言語対応による伸び、より幅広いアスペクト比、そしてより磨き込まれた制作用途に耐える出力です。

その上にあるのが「thinking」です。リリースではこれをより具体的に定義しており、thinkingモデルが選択されると、システムはより多くの時間を使えるようになり、Webを利用し、アップロードされた資料を分析し、生成前にレイアウトを推論してから出力でき、さらに最大で8つまでの連続性のある複数の異なる画像を一度に生成できます。

ブリーフィングの中でLiは、thinkingとProを、ツール利用つきのベースモデルの「パワーアップ版」としても説明し、裏側でより多くの推論と検索を行うため、これらの高度なモードは「速くなる」のではなく「遅くなる」と述べました。なお、ThinkingProの間の正確な機能境界は依然として不明です。

資料には、Proユーザーはより高度な画像生成にアクセスできると書かれていますが、それが「より高い品質」「より高い上限」「より高い解像度」「より多くの出力」といったことを意味するのか、それともthinkingそのものとは別の利点なのか、具体的には明示されていません。

エンタープライズユーザーにとって、違いを考える最も安全な方法は、「まったく別の3製品」としてではなく、速いデフォルト生成から遅く、よりエージェント的で、より構造化された生成までのスペクトラムとして捉えることです。

チームが、素早いクリエイティブ案、マーケティングのコンセプト、シンプルなグラフィック、または日常的な画像編集を必要とする場合、関連するデフォルトはImages 2.0のベースモデルであるようです。

タスクが、事実に基づく根拠づけを伴う場合、社内ドキュメントを説明用コンテンツへ変換する場合、多画像セットを作成する場合、あるいは一連のアセット間で一貫性を保つ必要がある場合に、より重要な違いは、その組織がthinkingを有効にした出力へアクセスできるかどうかです。

OpenAIが、ProとThinkingのより明確な切り分けを提供するまで、エンタープライズの購入者は「thinking」を意味のある実用的な機能向上として扱い、「Pro」を、正確な追加メリットが購買前の検討やワークフロー計画の段階でまだ明確にされていない可能性のある上位アクセス層として扱うのがよいでしょう。

S安全基準

OpenAIは、ChatGPT Images 2.0が、次を含む「多層構造のセーフティプロトコル」を提供していると述べています:

  1. 出どころ(Provenance):AI生成画像が識別可能になるように、透かし(ウォーターマーク)に関する業界標準に従うこと。

  2. モデルの保護策(Model Safeguards):成人・子ども双方に対して、有害または乱用的なコンテンツを排除するための高度な知覚モデルを使用すること。

  3. アクティブな監視(Active Monitoring):リアルタイム報告によってユーザーポリシーを強制すること。

Liは、「ユーザーの創造性を最大化する」ことが自分たちの理念だとしても、選挙への介入に関しては厳格な方針を維持していると強調しました。

エンタープライズユーザーにとっての意味

Images 1.5から2.0への移行は、単なる解像度の向上以上のものです。推論を統合することで、OpenAIは、AIアートが誕生以来抱えてきた「意図のギャップ(intent gap)」を解決しようとしています。

AIに「需要と供給に関するインフォグラフィック」を依頼するとき、あなたが求めているのは単なる絵ではなく、情報の論理的なレイアウトです。

「インテリアデザイン」のサンプル(Japandi Furnishing Concept)は、このような仕組みとしての思考を際立たせています。モデルは部屋を生成しただけではありません。まとまりのあるフロアプラン、カラーパレット、素材の一覧、そして「インスピレーション」ショットまでを作り上げ、それらすべてが単一の美学に沿うようになっています。

これがOpenAIの言う「ツールから『ビジュアルシステム』へ移行する」ということです。ただし、この能力の向上には速度面でのトレードオフがあります。

プロの利用者にとっては、これが十分に価値のある交換である可能性が高いです。「制作にそのまま使えるアセット」のためにさらに1分待つことは、手作業のデザインに必要な何時間かと比べれば、まだ大幅に速いからです。

ChatGPT Images 2.0が展開されるにつれ、AIが単にアート作りを手伝うだけでなく、「経済的に価値のある創造的タスク」を遂行する時代の始まりを示すことになります。

それが本当に人間のデザイナーの意図性を置き換えられるかどうかはまだ分かりませんが、2K解像度、多言語での流暢さ、そして実行する前に「考える」能力によって、OpenAIは確実に距離を縮めてきたと言えるでしょう。