無線機のハムラジオを持ったラクーンはどこ?(ChatGPT Images 2.0)
2026年4月21日
OpenAI は本日、最新の画像生成モデルであるChatGPT Images 2.0をリリースしました。 ライブ配信の中でSam Altmanは、gpt-image-1からgpt-image-2への飛躍はGPT-3からGPT-5へジャンプするのと同等だと言いました。早速、こちらで試してみます。
私のプロンプト:
Where's Waldo(ウォーリーをさがせ)風の画像を作って。でも「どこにいるか」を探すのはハムラジオを持ったラクーンだよ
gpt-image-1
まずはベースラインとして、ChatGPTを直接使って古いgpt-image-1で私が得た結果はこれです:
ラクーンは見つけられませんでした。すぐに、Where’s Waldo風の画像(イギリスのWhere’s Wally)のような課題に画像生成モデルをテストするのは、かなりイライラすることがわかりました!
Claude Opus 4.7 に、より高解像度の入力を使って解かせようとしましたが、画像左上にある指示カードのおかげで「ラクーンがいるはずだ」と確信してしまい、見つけられないながらもそうだと感じている様子でした:
はい。少なくとも1匹のラクーンがこの絵の中にいます。ただし、とても上手に隠されています。ズームした部分を注意深く探してみたのですが、率直に言うと、ハムラジオを持ったラクーンを決定的に見つけることはできませんでした。 [...]
Nano Banana 2 と Pro
次に、GoogleのNano Banana 2を Gemini経由で試しました:
これはかなり明白でした。ラクーンは画像中央の「Amateur Radio Club」ブースにいます!
Claudeはこう言いました:
正直に言うと、これは本当に隠れてはいません。ブースの主役です。あの最後のどうにも不可能だった場面のあと、イラストレーターが私たちに同情したような感じですね。ブースの看板にかけられた小さな「W6HAM」の語呂合わせも、いいアクセントです。
私はまた、Nano Banana Pro をAI Studioで試しましたが、どのモデルの結果よりもはるかに最悪でした。ここで何が起きたのでしょう!
gpt-image-2
ベースラインができたので、新しいモデルを試してみましょう。
openai_image.py の更新版を使いました。これは OpenAI Python クライアントライブラリの薄いラッパーです。OpenAIのクライアントライブラリはまだ gpt-image-2 を含むように更新されていませんが、ありがたいことにモデルIDの検証は行わないので、とにかくそのまま使えます。
実行方法はこうです:
OPENAI_API_KEY="$(llm keys get openai)" \ uv run https://tools.simonwillison.net/python/openai_image.py \ -m gpt-image-2 \ "Do a where's Waldo style image but it's where is the raccoon holding a ham radio"
返ってきた結果はこれです。そこにラクーンがいるとは思いません。私には見つけられなかったし、Claudeも見つけられていません。
OpenAIの画像生成クックブックには outputQuality 設定や利用可能なサイズなど、gpt-image-2 に関するメモが追記されています。
outputQuality を high にして、次元を 3840x2160 にしてみました—これは最大だと思われます—そして以下が得られました。17MBのPNGで、それを5MBのWEBPに変換しました:
OPENAI_API_KEY="$(llm keys get openai)" \ uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \ -m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \ --quality high --size 3840x2160
かなり素晴らしいです!画像の中にハムラジオを持ったラクーンがいます(左下で、かなり簡単に見つかります)。
この画像は13,342の出力トークンを使用しており、$30/millionで課金されるので、合計コストは約 40セント です。
要点
この新しいChatGPTの画像生成モデルは、少なくとも今のところ、Geminiから王冠を奪ったと思います。
ウォーリーを探せ風の画像は、これらのモデルを試すための腹立たしく、しかもどこか愚かな方法ではありますが、テキストと細部の両方を組み合わせた複雑なイラストでどれだけ上達しているかを示すのに役立ちます。
更新: これを解かせようとモデルに頼むのはリスクがある
rizacoはHacker Newsで、私が1つの画像の中にそれを見つけられなかった(赤い丸を付けられそうな)アライグマの周りに赤い円を描くようChatGPTに頼みました。以下は、彼らの結果と元の画像をアニメーションで混ぜたものです:

どうやら、これらのモデルが自分のパズルを自分で有用に解けると、私たちは少なくとも信頼できなさそうです!
最近の記事
- Claude Opus 4.6 と 4.7 のシステムプロンプトの変更 - 2026年4月18日
- Long Beachで開催される PyCon US 2026 に参加しよう。今だけAIとセキュリティのトラックが新設されました - 2026年4月17日
これは Simon Willison による Where’s the raccoon with the ham radio?(ChatGPT Images 2.0)(2026年4月21日投稿)です。
ai 1973 openai 407 generative-ai 1749 chatgpt 194 llms 1716 text-to-image 41 llm-release 193 nano-banana 8前の記事: Claude Opus 4.6 と 4.7 のシステムプロンプトの変更
月次ブリーフィング
月10ドルで私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールダイジェストを受け取ってください。
私にお金を払って、あなたの受け取る量を減らしてもらいましょう!
スポンサーして購読




