どこにいるんだ、ハム無線の子?(ChatGPT Images 2.0)

Simon Willison's Blog / 2026/4/22

📰 ニュース

要点

  • OpenAIが「ChatGPT Images 2.0」をリリースし、この記事では、従来の画像生成パフォーマンスと比較するための、カジュアルな現実世界での実験について報告している。
Sponsored by: Honeycomb — AIエージェントは予測不能に振る舞います。実際に何が起きたのかをデバッグするのに必要なコンテキストを手に入れましょう。 Read the blog

無線機(ハムラジオ)を持ったアライグマはどこ?(ChatGPT Images 2.0)

2026年4月21日

OpenAI は本日、最新の画像生成モデルであるChatGPT Images 2.0をリリースしました配信(ライブストリーム)の中で、Sam Altmanはgpt-image-1からgpt-image-2への飛躍は、GPT-3からGPT-5にジャンプするのと同等だと言っていました。試してみた内容はこちらです。

私のプロンプト:

Waldo風の「どこだっけ?」画像にして。ただし「どこにいるの?アライグマ(英:raccoon)で、ハムラジオを持っている」状況にして

gpt-image-1

まずは基準として、古いgpt-image-1をChatGPTに直接投げて得られた結果がこちらです:

いろいろと描写がありますが、アライグマを見つけられませんでした。

アライグマを見つけられませんでしたが、すぐに気づいたのは、Waldo風画像(英国ではWhere's Wally)を使って画像生成モデルをテストするのは、かなりイライラさせられるということです!

Claude Opus 4.7に、新しく高解像度の入力が可能になった機能を使って解決を試みましたが、画像の左上にある指示カードのおかげで、「そこにアライグマがいるはずなのに見つからない」という状態に確信してしまいました:

はい—写真の中には少なくとも1匹のアライグマがいますが、とてもよく隠れています。拡大したいくつかの部分を慎重に見て回ったのですが、率直に言うと、ハムラジオを持ったアライグマをはっきりと見分けることはできませんでした。[...]

Nano Banana 2 と Pro

次に、GoogleのNano Banana 2を Gemini経由で試しました:

人々の群衆がいる公園のお祭りの、忙しいWhere's Waldoスタイルのイラスト。「FOOD & DRINK」「CRAFT FAIR」「BOOK NOOK」「MUSIC FEST」「AMATEUR RADIO CLUB - W6HAM」とラベルが付いたテントがあり(赤い帽子を被ったアライグマが無線機のテーブルにいる)、さらに観覧車、メリーゴーランド、バンドが入ったガゼボ、ボートのある池、噴水、フードトラック、そして縞模様のサーカステント

これはかなり分かりやすかったです。アライグマは画像中央の「Amateur Radio Club」ブースにいます!

Claudeはこう言いました:

正直なところ、これは隠れていません—ブースの主役です。最後の「不可能に見える」場面のあとで、イラストレーターが私たちに同情したような感じがします。ブース看板の「W6HAM」の小ネタのような呼び名(call signの語呂)も良いアクセントです。

私もNano Banana Pro をAI Studioで試しましたが、どのモデルでも最悪の結果になりました。ここで何がうまくいかなかったのでしょう!

アライグマが他の誰よりも大きく、画像のど真ん中にいて、その周囲に醜い白い枠線が付いています。

gpt-image-2

基準ができたところで、新しいモデルを試してみましょう。

私はopenai_image.pyの更新版を使いました。これはOpenAI Pythonクライアントライブラリの薄いラッパーです。彼らのクライアントライブラリはまだgpt-image-2を含むように更新されていませんが、幸いモデルIDを検証しないので、とりあえずそのまま使えます。

実行方法はこうです:

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run https://tools.simonwillison.net/python/openai_image.py \
  -m gpt-image-2 \
  "Do a where's Waldo style image but it's where is the raccoon holding a ham radio"

返ってきたのはこれです。「そこにアライグマがいるとは思えません」—見つけられず、Claudeも同様でした。

いろいろあります。ハムラジオのブースもあって、たくさんの人、湖もある。でもたぶんアライグマはいない?

OpenAIの画像生成クックブックには、outputQuality設定や利用可能なサイズなど、gpt-image-2に関するメモが追記されました。

outputQualityhighにして、寸法を3840x2160にしてみました(それが最大だと思います)—するとこうなりました。17MBのPNGが返ってきて、それを5MBのWEBPに変換しました:

OPENAI_API_KEY="$(llm keys get openai)" \
  uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \
  -m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \
  --quality high --size 3840x2160

大きくて複雑な画像で、細部がたくさんあり、文章も良い。実際に、ハムラジオを持ったアライグマがいます。

かなり良いです! 画像の中に、ハムラジオを持ったアライグマがいます(左下で、かなり見つけやすい)。

この画像は13,342個の出力トークンを使用しており、$30/100万トークンで課金されるので、合計コストは約40セントでした。

まとめ

少なくとも現時点では、この新しいChatGPTの画像生成モデルがGeminiから王座を奪ったと思います。

ウォルド探し風の画像は、これらのモデルをテストするためのいらだたせるほどの、しかも少しばかばかしい方法ですが、テキストと細部の両方を組み合わせた複雑なイラストに対して、どれだけ上手くなってきているかを示すのには役立ちます。

更新: これを解かせようとモデルに頼むのは危険

rizaco は Hacker News で、私が1つの画像の中に見つけられなかったアライグマに対して、ChatGPTに赤い丸を描き加えるよう頼みました。以下は、彼らの結果と元の画像をアニメーションで混ぜたものです:

赤い丸が、ハムラジオを持ったアライグマの周りに現れます。ですが、元の画像にはそもそもそれは間違いなく存在しません!

どうやら、これらのモデルを“自分自身のパズルを有用に解く”ために信頼することは、確かにできなさそうですね!

2026年4月21日 20:32に投稿 · MastodonBlueskyTwitter、または ニュースレターを購読 してください

これは、サイモン・ウィリソンによる 「Where’s the raccoon with the ham radio?(ChatGPT Images 2.0)」 で、2026年4月21日に投稿されました。

ai 1976 openai 407 generative-ai 1752 chatgpt 194 llms 1719 text-to-image 41 llm-release 193 nano-banana 8

次: Claude Codeは月100ドルかかるようになる?おそらくない - すべてがとても紛らわしい

前: Claude Opus 4.6と4.7の間でのシステムプロンプトの変更

月例ブリーフィング

月10ドルでスポンサーになって、今月の最重要LLMの厳選メールダイジェストを受け取ってください。

もっと少なくて済むように、私にお金を払ってください!

スポンサーになって購読