要点

OpenAIはChatGPT Images 2.0をリリースし、Sam Altmanはgpt-image-1からgpt-image-2への進化を「GPT-3からGPT-5への飛躍」に相当すると主張しています。
Simon Willisonは、新しい画像生成器を「ウォーリーを探せ」風の難しいテスト（混雑した場面の中でハムラジオを持つアライグマを見つける指示）で検証します。
gpt-image-1はアライグマが判別しにくい状態になりがちで、Claudeは高解像度入力でも“いるはず”と確信しつつ実際に見つけられないことがあると述べられています。
記事ではさらに、GoogleのNano Banana 2（Gemini経由）など別の画像生成オプションも試し、モデルが「特定の物をどこかに隠して見つけさせる」という制約をどれだけ満たせるかを比較しています。
全体として、画像モデルにとって「ごちゃごちゃした構図の中でこの対象を探させる」指示を守るのがいかに難しいかが浮き彫りになります。

Simon Willison’s Weblog

Sponsored by: Honeycomb — AIエージェントは予測不能に振る舞います。実際に何が起きたのかをデバッグするのに必要な文脈を手に入れてください。 Read the blog

無線機のハムラジオを持ったラクーンはどこ？（ChatGPT Images 2.0）

2026年4月21日

OpenAI は本日、最新の画像生成モデルであるChatGPT Images 2.0をリリースしました。ライブ配信の中でSam Altmanは、gpt-image-1からgpt-image-2への飛躍はGPT-3からGPT-5へジャンプするのと同等だと言いました。早速、こちらで試してみます。

私のプロンプト：

Where's Waldo（ウォーリーをさがせ）風の画像を作って。でも「どこにいるか」を探すのはハムラジオを持ったラクーンだよ

gpt-image-1

まずはベースラインとして、ChatGPTを直接使って古いgpt-image-1で私が得た結果はこれです：

ラクーンは見つけられませんでした。すぐに、Where’s Waldo風の画像（イギリスのWhere’s Wally）のような課題に画像生成モデルをテストするのは、かなりイライラすることがわかりました！

Claude Opus 4.7 に、より高解像度の入力を使って解かせようとしましたが、画像左上にある指示カードのおかげで「ラクーンがいるはずだ」と確信してしまい、見つけられないながらもそうだと感じている様子でした：

はい。少なくとも1匹のラクーンがこの絵の中にいます。ただし、とても上手に隠されています。ズームした部分を注意深く探してみたのですが、率直に言うと、ハムラジオを持ったラクーンを決定的に見つけることはできませんでした。 [...]

Nano Banana 2 と Pro

次に、GoogleのNano Banana 2を Gemini経由で試しました：

これはかなり明白でした。ラクーンは画像中央の「Amateur Radio Club」ブースにいます！

Claudeはこう言いました：

正直に言うと、これは本当に隠れてはいません。ブースの主役です。あの最後のどうにも不可能だった場面のあと、イラストレーターが私たちに同情したような感じですね。ブースの看板にかけられた小さな「W6HAM」の語呂合わせも、いいアクセントです。

私はまた、Nano Banana Pro をAI Studioで試しましたが、どのモデルの結果よりもはるかに最悪でした。ここで何が起きたのでしょう！

gpt-image-2

ベースラインができたので、新しいモデルを試してみましょう。

openai_image.py の更新版を使いました。これは OpenAI Python クライアントライブラリの薄いラッパーです。OpenAIのクライアントライブラリはまだ gpt-image-2 を含むように更新されていませんが、ありがたいことにモデルIDの検証は行わないので、とにかくそのまま使えます。

実行方法はこうです：

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run https://tools.simonwillison.net/python/openai_image.py \
  -m gpt-image-2 \
  "Do a where's Waldo style image but it's where is the raccoon holding a ham radio"

返ってきた結果はこれです。そこにラクーンがいるとは思いません。私には見つけられなかったし、Claudeも見つけられていません。

OpenAIの画像生成クックブックには outputQuality 設定や利用可能なサイズなど、gpt-image-2 に関するメモが追記されています。

outputQuality を high にして、次元を 3840x2160 にしてみました—これは最大だと思われます—そして以下が得られました。17MBのPNGで、それを5MBのWEBPに変換しました：

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \
  -m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \
  --quality high --size 3840x2160

かなり素晴らしいです！画像の中にハムラジオを持ったラクーンがいます（左下で、かなり簡単に見つかります）。

この画像は13,342の出力トークンを使用しており、$30/millionで課金されるので、合計コストは約 40セントです。

要点

この新しいChatGPTの画像生成モデルは、少なくとも今のところ、Geminiから王冠を奪ったと思います。

ウォーリーを探せ風の画像は、これらのモデルを試すための腹立たしく、しかもどこか愚かな方法ではありますが、テキストと細部の両方を組み合わせた複雑なイラストでどれだけ上達しているかを示すのに役立ちます。

更新: これを解かせようとモデルに頼むのはリスクがある

rizacoはHacker Newsで、私が1つの画像の中にそれを見つけられなかった（赤い丸を付けられそうな）アライグマの周りに赤い円を描くようChatGPTに頼みました。以下は、彼らの結果と元の画像をアニメーションで混ぜたものです：

The circle appears around a raccoon with a ham radio who is definitely not there in the original image!

どうやら、これらのモデルが自分のパズルを自分で有用に解けると、私たちは少なくとも信頼できなさそうです！

2026年4月21日 20:32に投稿 · Mastodon、Bluesky、Twitter、またはニュースレターを購読してください

ハムラジオを持ったアライグマはどこ？（ChatGPT Images 2.0）

要点

Simon Willison’s Weblog

無線機のハムラジオを持ったラクーンはどこ？（ChatGPT Images 2.0）

gpt-image-1

Nano Banana 2 と Pro

gpt-image-2

要点

更新: これを解かせようとモデルに頼むのはリスクがある

最近の記事

月次ブリーフィング

関連記事

Black Hat USA

NAVERが開発！韓国語に特化した大規模言語モデル「HyperCLOVA X」

東芝、イジングマシンを100倍高速化する新手法組み合わせ最適化で威力

ソーシャルメディア投稿向けに特化した無料のAI検出アプリ

なぜ本番のLLMプロンプトがうまくいかないのか（4ステップで診断する方法）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Simon Willison’s Weblog

無線機のハムラジオを持ったラクーンはどこ？（ChatGPT Images 2.0）

gpt-image-1

Nano Banana 2 と Pro

gpt-image-2

要点

更新: これを解かせようとモデルに頼むのはリスクがある

最近の記事

月次ブリーフィング

関連記事

Black Hat USA

NAVERが開発！韓国語に特化した大規模言語モデル「HyperCLOVA X」

東芝、イジングマシンを100倍高速化する新手法 組み合わせ最適化で威力

ソーシャルメディア投稿向けに特化した無料のAI検出アプリ

なぜ本番のLLMプロンプトがうまくいかないのか（4ステップで診断する方法）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

東芝、イジングマシンを100倍高速化する新手法組み合わせ最適化で威力