無線機(ハムラジオ)を持ったアライグマはどこ?(ChatGPT Images 2.0)
2026年4月21日
OpenAI は本日、最新の画像生成モデルであるChatGPT Images 2.0をリリースしました。 配信(ライブストリーム)の中で、Sam Altmanはgpt-image-1からgpt-image-2への飛躍は、GPT-3からGPT-5にジャンプするのと同等だと言っていました。試してみた内容はこちらです。
私のプロンプト:
Waldo風の「どこだっけ?」画像にして。ただし「どこにいるの?アライグマ(英:raccoon)で、ハムラジオを持っている」状況にして
gpt-image-1
まずは基準として、古いgpt-image-1をChatGPTに直接投げて得られた結果がこちらです:
アライグマを見つけられませんでしたが、すぐに気づいたのは、Waldo風画像(英国ではWhere's Wally)を使って画像生成モデルをテストするのは、かなりイライラさせられるということです!
Claude Opus 4.7に、新しく高解像度の入力が可能になった機能を使って解決を試みましたが、画像の左上にある指示カードのおかげで、「そこにアライグマがいるはずなのに見つからない」という状態に確信してしまいました:
はい—写真の中には少なくとも1匹のアライグマがいますが、とてもよく隠れています。拡大したいくつかの部分を慎重に見て回ったのですが、率直に言うと、ハムラジオを持ったアライグマをはっきりと見分けることはできませんでした。[...]
Nano Banana 2 と Pro
次に、GoogleのNano Banana 2を Gemini経由で試しました:
これはかなり分かりやすかったです。アライグマは画像中央の「Amateur Radio Club」ブースにいます!
Claudeはこう言いました:
正直なところ、これは隠れていません—ブースの主役です。最後の「不可能に見える」場面のあとで、イラストレーターが私たちに同情したような感じがします。ブース看板の「W6HAM」の小ネタのような呼び名(call signの語呂)も良いアクセントです。
私もNano Banana Pro をAI Studioで試しましたが、どのモデルでも最悪の結果になりました。ここで何がうまくいかなかったのでしょう!
gpt-image-2
基準ができたところで、新しいモデルを試してみましょう。
私はopenai_image.pyの更新版を使いました。これはOpenAI Pythonクライアントライブラリの薄いラッパーです。彼らのクライアントライブラリはまだgpt-image-2を含むように更新されていませんが、幸いモデルIDを検証しないので、とりあえずそのまま使えます。
実行方法はこうです:
OPENAI_API_KEY="$(llm keys get openai)" \ uv run https://tools.simonwillison.net/python/openai_image.py \ -m gpt-image-2 \ "Do a where's Waldo style image but it's where is the raccoon holding a ham radio"
返ってきたのはこれです。「そこにアライグマがいるとは思えません」—見つけられず、Claudeも同様でした。
OpenAIの画像生成クックブックには、outputQuality設定や利用可能なサイズなど、gpt-image-2に関するメモが追記されました。
outputQualityをhighにして、寸法を3840x2160にしてみました(それが最大だと思います)—するとこうなりました。17MBのPNGが返ってきて、それを5MBのWEBPに変換しました:
OPENAI_API_KEY="$(llm keys get openai)" \ uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \ -m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \ --quality high --size 3840x2160
かなり良いです! 画像の中に、ハムラジオを持ったアライグマがいます(左下で、かなり見つけやすい)。
この画像は13,342個の出力トークンを使用しており、$30/100万トークンで課金されるので、合計コストは約40セントでした。
まとめ
少なくとも現時点では、この新しいChatGPTの画像生成モデルがGeminiから王座を奪ったと思います。
ウォルド探し風の画像は、これらのモデルをテストするためのいらだたせるほどの、しかも少しばかばかしい方法ですが、テキストと細部の両方を組み合わせた複雑なイラストに対して、どれだけ上手くなってきているかを示すのには役立ちます。
更新: これを解かせようとモデルに頼むのは危険
rizaco は Hacker News で、私が1つの画像の中に見つけられなかったアライグマに対して、ChatGPTに赤い丸を描き加えるよう頼みました。以下は、彼らの結果と元の画像をアニメーションで混ぜたものです:

どうやら、これらのモデルを“自分自身のパズルを有用に解く”ために信頼することは、確かにできなさそうですね!
最近の記事
- Claude Codeは月100ドルかかるようになる?おそらくない - すべてがとても紛らわしい - 2026年4月22日
- Claude Opus 4.6と4.7の間でのシステムプロンプトの変更 - 2026年4月18日
これは、サイモン・ウィリソンによる 「Where’s the raccoon with the ham radio?(ChatGPT Images 2.0)」 で、2026年4月21日に投稿されました。
ai 1976 openai 407 generative-ai 1752 chatgpt 194 llms 1719 text-to-image 41 llm-release 193 nano-banana 8次: Claude Codeは月100ドルかかるようになる?おそらくない - すべてがとても紛らわしい
前: Claude Opus 4.6と4.7の間でのシステムプロンプトの変更
月例ブリーフィング
月10ドルでスポンサーになって、今月の最重要LLMの厳選メールダイジェストを受け取ってください。
もっと少なくて済むように、私にお金を払ってください!
スポンサーになって購読



