もともと NextFuture に掲載された記事
今週のアップデート
OpenAIは2026年4月21日にChatGPT Images 2.0を出荷し、同日API、Codex、ChatGPT上で新しいgpt-image-2モデルを公開しました。このモデルは長辺最大2,000ピクセルを描画し、3:1〜1:3の7つのアスペクト比に対応し、同じ文字やオブジェクトをバッチ内で保持したまま、1回の呼び出しで最大8枚のまとまりのある画像を生成します。新しいthinking mode(思考モード)は、描画の前にレイアウトとタイポグラフィを推論します。そのため、gpt-image-2はこれまでgpt-image-1がぐちゃぐちゃにしていた多言語テキスト、インフォグラフィック、スライド、地図も扱えるようになりました。TechCrunchはテキストのレンダリングを「驚くほど良い」と評し、Image Arenaのリーダーボードでは現在、あらゆるカテゴリで1位にランクされています。制作管理された別名chatgpt-image-latestは更新を自動で前方に反映します。固定バージョンが欲しい場合はgpt-image-2にピン留めしてください。
ビルダーにとって重要な理由
インディー開発者: 立ち上げ用のアセットのために、Midjourney → Photoshopの手順を省略できます。従来は:Midjourneyで正方形のヒーローを生成し、Figmaでタイポグラフィを手作業で編集し、アップスケール。今後は:1回のgpt-image-2呼び出しで、ブランドに合った風景形式のヒーローが、2Kの解像度で判読可能な見出しテキスト付きで返ってきます。マーケティングページにそのまま貼り付け可能です。8枚のバッチにより、ヒーローのコピーのA/Bテストを、8回のプロンプト反復ではなく、単一のAPI呼び出しで実施できます。
Webエンジニア: プロダクトビジュアルにCMSのアップロードフローはもう不要です。従来は:デザイナーがPNGを書き出し、S3にアップロードし、URLをCMSのフィールドにコピペ。今後は:Next.jsのサーバーアクションが商品のタイトルを受け取り、images.generateを呼び出し、base64のPNGをそのままnext/imageタグ、またはVercel Blobにストリーミングします。1つのエンドポイントから、オンデマンドのブログカバー、og:imageのデフォルト、プレースホルダーの商品の写真まで得られます。
AIエンジニア: 合成スクリーンショットや図が必要なデモは、デザインチケット待ちで足止めされなくなります。従来は:「ピッチデック用に、ダミーのダッシュボードをPhotoshopしよう」。今後は:プロンプト1つ――「6か月で解約率が8%から3%に下がる様子を示すSaaSのダッシュボード。ラベルは英語とベトナム語で、ダークテーマ」――を投げると、約7秒で使えるPNGが返ります。RAGや評価(eval)のパイプラインで、根拠のある視覚的成果物が必要な場合でも、固定されたseedを使って、決定論的に生成できるようになりました。
ハンズオン:15分以内で試してみよう
要件:Node 20+、OpenAIのNode SDK(npm i openai@^4)、そして画像生成が有効になったAPIキー。以下を、app/actions/image.ts のNext.js 16のサーバーアクションにそのまま入れてください。
"use server";
import OpenAI from "openai";
import { put } from "@vercel/blob";
const client = new OpenAI();
export async function generateCover(prompt: string) {
const res = await client.images.generate({
model: "gpt-image-2",
prompt,
size: "1536x1024", // landscape(風景)。長辺最大2Kに対応
quality: "high", // 「low」|「medium」|「high」
n: 1, // まとまりのあるバッチにするには8に増やす
// @ts-expect-error — 新しい2026年パラメータ。SDKの型が追いついていない
thinking: "auto",
});
const b64 = res.data[0].b64_json!;
const { url } = await put(
`covers/${Date.now()}.png`,
Buffer.from(b64, "base64"),
{ access: "public", contentType: "image/png"},
);
return url;
}
RSCページから呼び出します:const url = await generateCover("Dark hero for a Next.js tutorial, laptop with glowing keyboard, title 'Ship faster'");。費用:OpenAIは画像をトークンとして請求します――入力テキストは$5/M、出力テキストは$10/M、入力画像は$8/M、出力画像は$30/M。1024×1024の高品質レンダリングは約$0.21で、4枚のバッチだと約$0.84です。thinking modeは追加で推論トークンが課金されるため、厳密なレイアウト指示(4列のインフォグラフィック、ベトナム語の見出し、正確な料金)ほど、ルーズなシーン指定よりコストが高くなります。予算を見積もってください。無料枠のChatGPTユーザーはインスタントモードのみ利用できます。thinking、8画像バッチ、Web検索による根拠づけには、Plus/Pro/Business、または任意の有料APIティアが必要です。バッチ内での被写体の連続性――商品4方向、4コマ漫画――を保つには、n: 8を設定し、各バリアントをプロンプト内に直接記述してください。モデルは被写体を安定して維持します(gpt-image-1ではできませんでした)。
代替手段との比較
返却形式: {"translated": "翻訳されたHTML"}gpt-image-2Gemini 2.5 Flash ImageFlux 1.1 Pro開始価格~$0.21 / 1024²高品質レンダリング$0.039 / 画像$0.055 / 画像おすすめ用途テキスト量の多いインフォグラフィック、スライド、多言語の看板会話形式の編集、Gemini API内での安価な反復写真のようなヒーローショット、スタイルの制御主な制限長辺最大2K;「思考モード」は追加課金小さなフォントでのテキスト描画が弱い推論ステップなし;密なUIの文章では可読性が弱い統合openai SDK、1つのエンドポイント、base64またはURLレスポンス@google/genai SDK、テキストと同じ呼び出し経路Replicate / Fal / BFLのREST API
今週試してみてください
サイト上のマーケティング用アートを1つ選んでください。ブログの表紙、料金ページのイラスト、空状態のスクリーンショットなどです。そして今夜、Next.jsのサーバーアクションでgpt-image-2を使ってそれを再生成します。次の3つの数値を測定してください:合計USD、初回レンダリングのレイテンシ、そしてテキストが2×でも読みやすいままでいるかどうか。答えが「Figmaを1時間使うより安い」なら、オートカバー生成器として公開パイプラインに組み込みましょう。同じUXパターンの音声側については、Gemini 3.1 Flash TTSが15分で音声UXを提供開始をご覧ください。いまこのエンドポイントをネイティブに呼び出すコーディングエージェントが欲しいなら、OpenAI Codexの2026年4月アップデートと組み合わせるのがおすすめです。
この記事はもともとNextFutureに掲載されました。より多くのフルスタック&AIエンジニアリングのコンテンツについて、ぜひフォローしてください。


