Simon Willison’s Weblog

Sponsored by: Honeycomb — AIエージェントは予測不能に振る舞います。実際に何が起きたのかをデバッグするのに必要なコンテキストを手に入れましょう。 Read the blog

無線機（ハムラジオ）を持ったアライグマはどこ？（ChatGPT Images 2.0）

2026年4月21日

OpenAI は本日、最新の画像生成モデルであるChatGPT Images 2.0をリリースしました。配信（ライブストリーム）の中で、Sam Altmanはgpt-image-1からgpt-image-2への飛躍は、GPT-3からGPT-5にジャンプするのと同等だと言っていました。試してみた内容はこちらです。

私のプロンプト：

Waldo風の「どこだっけ？」画像にして。ただし「どこにいるの？アライグマ（英：raccoon）で、ハムラジオを持っている」状況にして

gpt-image-1

まずは基準として、古いgpt-image-1をChatGPTに直接投げて得られた結果がこちらです：

アライグマを見つけられませんでしたが、すぐに気づいたのは、Waldo風画像（英国ではWhere's Wally）を使って画像生成モデルをテストするのは、かなりイライラさせられるということです！

Claude Opus 4.7に、新しく高解像度の入力が可能になった機能を使って解決を試みましたが、画像の左上にある指示カードのおかげで、「そこにアライグマがいるはずなのに見つからない」という状態に確信してしまいました：

はい—写真の中には少なくとも1匹のアライグマがいますが、とてもよく隠れています。拡大したいくつかの部分を慎重に見て回ったのですが、率直に言うと、ハムラジオを持ったアライグマをはっきりと見分けることはできませんでした。[...]

Nano Banana 2 と Pro

次に、GoogleのNano Banana 2を Gemini経由で試しました：

これはかなり分かりやすかったです。アライグマは画像中央の「Amateur Radio Club」ブースにいます！

Claudeはこう言いました：

正直なところ、これは隠れていません—ブースの主役です。最後の「不可能に見える」場面のあとで、イラストレーターが私たちに同情したような感じがします。ブース看板の「W6HAM」の小ネタのような呼び名（call signの語呂）も良いアクセントです。

私もNano Banana Pro をAI Studioで試しましたが、どのモデルでも最悪の結果になりました。ここで何がうまくいかなかったのでしょう！

gpt-image-2

基準ができたところで、新しいモデルを試してみましょう。

私はopenai_image.pyの更新版を使いました。これはOpenAI Pythonクライアントライブラリの薄いラッパーです。彼らのクライアントライブラリはまだgpt-image-2を含むように更新されていませんが、幸いモデルIDを検証しないので、とりあえずそのまま使えます。

実行方法はこうです：

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run https://tools.simonwillison.net/python/openai_image.py \
  -m gpt-image-2 \
  "Do a where's Waldo style image but it's where is the raccoon holding a ham radio"

返ってきたのはこれです。「そこにアライグマがいるとは思えません」—見つけられず、Claudeも同様でした。

OpenAIの画像生成クックブックには、outputQuality設定や利用可能なサイズなど、gpt-image-2に関するメモが追記されました。

outputQualityをhighにして、寸法を3840x2160にしてみました（それが最大だと思います）—するとこうなりました。17MBのPNGが返ってきて、それを5MBのWEBPに変換しました：

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \
  -m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \
  --quality high --size 3840x2160

かなり良いです！画像の中に、ハムラジオを持ったアライグマがいます（左下で、かなり見つけやすい）。

この画像は13,342個の出力トークンを使用しており、$30/100万トークンで課金されるので、合計コストは約40セントでした。

まとめ

少なくとも現時点では、この新しいChatGPTの画像生成モデルがGeminiから王座を奪ったと思います。

ウォルド探し風の画像は、これらのモデルをテストするためのいらだたせるほどの、しかも少しばかばかしい方法ですが、テキストと細部の両方を組み合わせた複雑なイラストに対して、どれだけ上手くなってきているかを示すのには役立ちます。

更新: これを解かせようとモデルに頼むのは危険

rizaco は Hacker News で、私が1つの画像の中に見つけられなかったアライグマに対して、ChatGPTに赤い丸を描き加えるよう頼みました。以下は、彼らの結果と元の画像をアニメーションで混ぜたものです:

赤い丸が、ハムラジオを持ったアライグマの周りに現れます。ですが、元の画像にはそもそもそれは間違いなく存在しません！

どうやら、これらのモデルを“自分自身のパズルを有用に解く”ために信頼することは、確かにできなさそうですね！

2026年4月21日 20:32に投稿 · Mastodon、Bluesky、Twitter、またはニュースレターを購読してください

どこにいるんだ、ハム無線の子？（ChatGPT Images 2.0）

要点

Simon Willison’s Weblog

無線機（ハムラジオ）を持ったアライグマはどこ？（ChatGPT Images 2.0）

gpt-image-1

Nano Banana 2 と Pro

gpt-image-2

まとめ

更新: これを解かせようとモデルに頼むのは危険

最近の記事

月例ブリーフィング

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer