ハムラジオを持ったアライグマはどこ?(ChatGPT Images 2.0)

Simon Willison's Blog / 2026/4/22

💬 オピニオンTools & Practical UsageModels & Research

要点

  • OpenAIはChatGPT Images 2.0をリリースし、Sam Altmanはgpt-image-1からgpt-image-2への進化を「GPT-3からGPT-5への飛躍」に相当すると主張しています。
  • Simon Willisonは、新しい画像生成器を「ウォーリーを探せ」風の難しいテスト(混雑した場面の中でハムラジオを持つアライグマを見つける指示)で検証します。
  • gpt-image-1はアライグマが判別しにくい状態になりがちで、Claudeは高解像度入力でも“いるはず”と確信しつつ実際に見つけられないことがあると述べられています。
  • 記事ではさらに、GoogleのNano Banana 2(Gemini経由)など別の画像生成オプションも試し、モデルが「特定の物をどこかに隠して見つけさせる」という制約をどれだけ満たせるかを比較しています。
  • 全体として、画像モデルにとって「ごちゃごちゃした構図の中でこの対象を探させる」指示を守るのがいかに難しいかが浮き彫りになります。
Sponsored by: Honeycomb — AIエージェントは予測不能に振る舞います。実際に何が起きたのかをデバッグするのに必要な文脈を手に入れてください。 Read the blog

無線機のハムラジオを持ったラクーンはどこ?(ChatGPT Images 2.0)

2026年4月21日

OpenAI は本日、最新の画像生成モデルであるChatGPT Images 2.0をリリースしましたライブ配信の中でSam Altmanは、gpt-image-1からgpt-image-2への飛躍はGPT-3からGPT-5へジャンプするのと同等だと言いました。早速、こちらで試してみます。

私のプロンプト:

Where's Waldo(ウォーリーをさがせ)風の画像を作って。でも「どこにいるか」を探すのはハムラジオを持ったラクーンだよ

gpt-image-1

まずはベースラインとして、ChatGPTを直接使って古いgpt-image-1で私が得た結果はこれです:

いろいろなものが描かれているけれど、ラクーンを見つけられませんでした。

ラクーンは見つけられませんでした。すぐに、Where’s Waldo風の画像(イギリスのWhere’s Wally)のような課題に画像生成モデルをテストするのは、かなりイライラすることがわかりました!

Claude Opus 4.7 に、より高解像度の入力を使って解かせようとしましたが、画像左上にある指示カードのおかげで「ラクーンがいるはずだ」と確信してしまい、見つけられないながらもそうだと感じている様子でした:

はい。少なくとも1匹のラクーンがこの絵の中にいます。ただし、とても上手に隠されています。ズームした部分を注意深く探してみたのですが、率直に言うと、ハムラジオを持ったラクーンを決定的に見つけることはできませんでした。 [...]

Nano Banana 2 と Pro

次に、GoogleのNano Banana 2を Gemini経由で試しました:

人混みがある公園のお祭りを描いた、にぎやかなWhere’s Waldo風のイラスト。テントには「FOOD & DRINK」「CRAFT FAIR」「BOOK NOOK」「MUSIC FEST」「AMATEUR RADIO CLUB - W6HAM」というラベルが付いている(赤い帽子のラクーンが無線のテーブルにいる)。さらに観覧車、メリーゴーラウンド、バンドがいるガゼボ、ボートのある池、噴水、フードトラック、ストライプのサーカステント。

これはかなり明白でした。ラクーンは画像中央の「Amateur Radio Club」ブースにいます!

Claudeはこう言いました:

正直に言うと、これは本当に隠れてはいません。ブースの主役です。あの最後のどうにも不可能だった場面のあと、イラストレーターが私たちに同情したような感じですね。ブースの看板にかけられた小さな「W6HAM」の語呂合わせも、いいアクセントです。

私はまた、Nano Banana Pro をAI Studioで試しましたが、どのモデルの結果よりもはるかに最悪でした。ここで何が起きたのでしょう!

ラクーンが他の誰よりも大きく、画像の真ん中にいて、その周りには醜い白い枠が付いています。

gpt-image-2

ベースラインができたので、新しいモデルを試してみましょう。

openai_image.py の更新版を使いました。これは OpenAI Python クライアントライブラリの薄いラッパーです。OpenAIのクライアントライブラリはまだ gpt-image-2 を含むように更新されていませんが、ありがたいことにモデルIDの検証は行わないので、とにかくそのまま使えます。

実行方法はこうです:

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run https://tools.simonwillison.net/python/openai_image.py \
  -m gpt-image-2 \
  "Do a where's Waldo style image but it's where is the raccoon holding a ham radio"

返ってきた結果はこれです。そこにラクーンがいるとは思いません。私には見つけられなかったし、Claudeも見つけられていません。

いろいろなもの、ハムラジオのブース、たくさんの人、湖。でもたぶんラクーンはいない?

OpenAIの画像生成クックブックには outputQuality 設定や利用可能なサイズなど、gpt-image-2 に関するメモが追記されています。

outputQualityhigh にして、次元を 3840x2160 にしてみました—これは最大だと思われます—そして以下が得られました。17MBのPNGで、それを5MBのWEBPに変換しました:

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \
  -m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \
  --quality high --size 3840x2160

大きくて複雑な画像で、ディテールがたくさんあり、文章も良い。実際に、ハムラジオを持ったラクーンがいる。

かなり素晴らしいです!画像の中にハムラジオを持ったラクーンがいます(左下で、かなり簡単に見つかります)。

この画像は13,342の出力トークンを使用しており、$30/millionで課金されるので、合計コストは約 40セント です。

要点

この新しいChatGPTの画像生成モデルは、少なくとも今のところ、Geminiから王冠を奪ったと思います。

ウォーリーを探せ風の画像は、これらのモデルを試すための腹立たしく、しかもどこか愚かな方法ではありますが、テキストと細部の両方を組み合わせた複雑なイラストでどれだけ上達しているかを示すのに役立ちます。

更新: これを解かせようとモデルに頼むのはリスクがある

rizacoはHacker Newsで、私が1つの画像の中にそれを見つけられなかった(赤い丸を付けられそうな)アライグマの周りに赤い円を描くようChatGPTに頼みました。以下は、彼らの結果と元の画像をアニメーションで混ぜたものです:

The circle appears around a raccoon with a ham radio who is definitely not there in the original image!

どうやら、これらのモデルが自分のパズルを自分で有用に解けると、私たちは少なくとも信頼できなさそうです!

2026年4月21日 20:32に投稿 · MastodonBlueskyTwitter、またはニュースレターを購読してください

これは Simon Willison による Where’s the raccoon with the ham radio?(ChatGPT Images 2.0)(2026年4月21日投稿)です。

ai 1973 openai 407 generative-ai 1749 chatgpt 194 llms 1716 text-to-image 41 llm-release 193 nano-banana 8

前の記事: Claude Opus 4.6 と 4.7 のシステムプロンプトの変更

月次ブリーフィング

月10ドルで私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールダイジェストを受け取ってください。

私にお金を払って、あなたの受け取る量を減らしてもらいましょう!

スポンサーして購読