gpt-image-2 API：Next.jsで1回0.21ドル相当、2KのAI画像を生成

Dev.to / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

原文を読む →

共有:

要点

OpenAIはChatGPT Images 2.0をリリースし、新たにgpt-image-2モデルをAPIで利用できるようにしました。最長辺2,000ピクセルまでの生成、複数のアスペクト比、1回の呼び出しで最大8枚のまとまりのある画像生成が可能で、バッチ内で登場人物やオブジェクトの一貫性も維持します。
「thinking mode」によりレイアウトとタイポグラフィの推論が改善され、多言語テキスト、インフォグラフィック、スライド、地図などをgpt-image-1より崩れにくくレンダリングできます。
自動更新されるエイリアス（chatgpt-image-latest）が改善を継続的に反映しつつ、固定したい場合はgpt-image-2にピン留めできます。
ビルダー目線では、実運用の手順が大きく変わる点が強調されています。インディー開発者は1回のAPI呼び出しでローンチ用のマーケ画像を作れ、WebエンジニアはNext.jsでCMSへのアップロード手順を省略でき、AIエンジニアは固定seedによって決定的に生成しつつ、デモ用の合成スクリーンショット／図解や視覚評価パイプラインのボトルネックを解消できます。
本記事では、OpenAI Node SDKと画像生成が有効なAPIキーを使って、Next.js 16のサーバーアクションで画像生成を素早く実装する手順（クイックスタート）も紹介しています。

もともと NextFuture に掲載された記事

今週のアップデート

OpenAIは2026年4月21日にChatGPT Images 2.0を出荷し、同日API、Codex、ChatGPT上で新しいgpt-image-2モデルを公開しました。このモデルは長辺最大2,000ピクセルを描画し、3:1〜1:3の7つのアスペクト比に対応し、同じ文字やオブジェクトをバッチ内で保持したまま、1回の呼び出しで最大8枚のまとまりのある画像を生成します。新しいthinking mode（思考モード）は、描画の前にレイアウトとタイポグラフィを推論します。そのため、gpt-image-2はこれまでgpt-image-1がぐちゃぐちゃにしていた多言語テキスト、インフォグラフィック、スライド、地図も扱えるようになりました。TechCrunchはテキストのレンダリングを「驚くほど良い」と評し、Image Arenaのリーダーボードでは現在、あらゆるカテゴリで1位にランクされています。制作管理された別名chatgpt-image-latestは更新を自動で前方に反映します。固定バージョンが欲しい場合はgpt-image-2にピン留めしてください。

ビルダーにとって重要な理由

インディー開発者: 立ち上げ用のアセットのために、Midjourney → Photoshopの手順を省略できます。従来は：Midjourneyで正方形のヒーローを生成し、Figmaでタイポグラフィを手作業で編集し、アップスケール。今後は：1回のgpt-image-2呼び出しで、ブランドに合った風景形式のヒーローが、2Kの解像度で判読可能な見出しテキスト付きで返ってきます。マーケティングページにそのまま貼り付け可能です。8枚のバッチにより、ヒーローのコピーのA/Bテストを、8回のプロンプト反復ではなく、単一のAPI呼び出しで実施できます。

Webエンジニア: プロダクトビジュアルにCMSのアップロードフローはもう不要です。従来は：デザイナーがPNGを書き出し、S3にアップロードし、URLをCMSのフィールドにコピペ。今後は：Next.jsのサーバーアクションが商品のタイトルを受け取り、images.generateを呼び出し、base64のPNGをそのままnext/imageタグ、またはVercel Blobにストリーミングします。1つのエンドポイントから、オンデマンドのブログカバー、og:imageのデフォルト、プレースホルダーの商品の写真まで得られます。

AIエンジニア: 合成スクリーンショットや図が必要なデモは、デザインチケット待ちで足止めされなくなります。従来は：「ピッチデック用に、ダミーのダッシュボードをPhotoshopしよう」。今後は：プロンプト1つ――「6か月で解約率が8%から3%に下がる様子を示すSaaSのダッシュボード。ラベルは英語とベトナム語で、ダークテーマ」――を投げると、約7秒で使えるPNGが返ります。RAGや評価（eval）のパイプラインで、根拠のある視覚的成果物が必要な場合でも、固定されたseedを使って、決定論的に生成できるようになりました。

ハンズオン：15分以内で試してみよう

要件：Node 20+、OpenAIのNode SDK（npm i openai@^4）、そして画像生成が有効になったAPIキー。以下を、app/actions/image.ts のNext.js 16のサーバーアクションにそのまま入れてください。

"use server";
import OpenAI from "openai";
import { put } from "@vercel/blob";

const client = new OpenAI();

export async function generateCover(prompt: string) {
  const res = await client.images.generate({
    model: "gpt-image-2",
    prompt,
    size: "1536x1024",   // landscape（風景）。長辺最大2Kに対応
    quality: "high",      // 「low」|「medium」|「high」
    n: 1,                 // まとまりのあるバッチにするには8に増やす
    // @ts-expect-error — 新しい2026年パラメータ。SDKの型が追いついていない
    thinking: "auto",
  });

  const b64 = res.data[0].b64_json!;
  const { url } = await put(
    `covers/${Date.now()}.png`,
    Buffer.from(b64, "base64"),
    { access: "public", contentType: "image/png"},
  );
  return url;
}

RSCページから呼び出します：const url = await generateCover("Dark hero for a Next.js tutorial, laptop with glowing keyboard, title 'Ship faster'");。費用：OpenAIは画像をトークンとして請求します――入力テキストは$5/M、出力テキストは$10/M、入力画像は$8/M、出力画像は$30/M。1024×1024の高品質レンダリングは約$0.21で、4枚のバッチだと約$0.84です。thinking modeは追加で推論トークンが課金されるため、厳密なレイアウト指示（4列のインフォグラフィック、ベトナム語の見出し、正確な料金）ほど、ルーズなシーン指定よりコストが高くなります。予算を見積もってください。無料枠のChatGPTユーザーはインスタントモードのみ利用できます。thinking、8画像バッチ、Web検索による根拠づけには、Plus/Pro/Business、または任意の有料APIティアが必要です。バッチ内での被写体の連続性――商品4方向、4コマ漫画――を保つには、n: 8を設定し、各バリアントをプロンプト内に直接記述してください。モデルは被写体を安定して維持します（gpt-image-1ではできませんでした）。

代替手段との比較

返却形式: {"translated": "翻訳されたHTML"}

gpt-image-2Gemini 2.5 Flash ImageFlux 1.1 Pro開始価格~$0.21 / 1024²高品質レンダリング$0.039 / 画像$0.055 / 画像おすすめ用途テキスト量の多いインフォグラフィック、スライド、多言語の看板会話形式の編集、Gemini API内での安価な反復写真のようなヒーローショット、スタイルの制御主な制限長辺最大2K；「思考モード」は追加課金小さなフォントでのテキスト描画が弱い推論ステップなし；密なUIの文章では可読性が弱い統合openai SDK、1つのエンドポイント、base64またはURLレスポンス@google/genai SDK、テキストと同じ呼び出し経路Replicate / Fal / BFLのREST API

今週試してみてください

サイト上のマーケティング用アートを1つ選んでください。ブログの表紙、料金ページのイラスト、空状態のスクリーンショットなどです。そして今夜、Next.jsのサーバーアクションでgpt-image-2を使ってそれを再生成します。次の3つの数値を測定してください：合計USD、初回レンダリングのレイテンシ、そしてテキストが2×でも読みやすいままでいるかどうか。答えが「Figmaを1時間使うより安い」なら、オートカバー生成器として公開パイプラインに組み込みましょう。同じUXパターンの音声側については、Gemini 3.1 Flash TTSが15分で音声UXを提供開始をご覧ください。いまこのエンドポイントをネイティブに呼び出すコーディングエージェントが欲しいなら、OpenAI Codexの2026年4月アップデートと組み合わせるのがおすすめです。

この記事はもともとNextFutureに掲載されました。より多くのフルスタック＆AIエンジニアリングのコンテンツについて、ぜひフォローしてください。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/23Dailyインサイトを見る →

Black Hat USA

AI Business

日産やVWがE2E自動運転で攻勢、吉利・長安がHEV参入北京ショー開幕へ

日経XTECH

なぜあなたのブランドはChatGPTに見つけられないのか（そして直し方）

Dev.to

ノーフリーランチ定理（No Free Lunch Theorem）— ディープダイブ＋問題：ビットを反転

Dev.to

Salesforce Headless 360：ブラウザなしでCRMを動かす

Dev.to

gpt-image-2 API：Next.jsで1回0.21ドル相当、2KのAI画像を生成

要点

今週のアップデート

ビルダーにとって重要な理由

ハンズオン：15分以内で試してみよう

代替手段との比較

今週試してみてください

💡 この記事が使われたインサイト