要点

この投稿では、サイモン・ウィリソンの「自転車に乗るペリカン」ベンチマークを使って、2つの新しくリリースされた大規模言語モデル（AlibabaのQwen3.6-35B-A3BとAnthropicのClaude Opus 4.7）を比較している。
LM Studioを通じてMacBook Pro上で量子化したQwen3.6-35B-A3Bモデルをローカル実行したところ、作者のClaudeの結果よりも、より正確な自転車のフレームと、より首尾一貫したシーンが得られた。
作者は、Claude Opus 4.7が自転車のフレームについて「形状が完全に間違っていた」と述べており、`thinking_level`をmaxに引き上げても結果は大きく改善しなかったとしている。
記事では、両モデルの生成の違いを示すために、直接の書き起こし（gist）とサンプル画像を掲載している。
総じて、この特定の視覚的推論／生成タスクに関しては、作者の手元の検証環境ではQwen3.6-35B-A3Bの方がOpus 4.7を上回ったことを示唆している。

Simon Willison’s Weblog

スポンサー: Teleport — Teleport Beamsで数秒でエージェントをインフラに接続。組み込みのID。秘密情報なし。早期アクセスを取得

私のノートPCで動かしたQwen3.6-35B-A3Bは、Claude Opus 4.7よりも“良い”ペリカンを描いた

2026年4月16日

誰かが（賢明ではないにもかかわらず）私のペリカンが自転車に乗るベンチマークを、モデルをテストする頑丈な方法として真剣に取り上げているなら、今朝の2つの大きなモデルリリースからのペリカンたちを紹介します――AlibabaのQwen3.6-35B-A3B と AnthropicのClaude Opus 4.7 です。

こちらは、この20.9GBのQwen3.6-35B-A3B-UD-Q4_K_S.gguf をUnslothが量子化したモデルを使って生成したQwen 3.6のペリカンで、LM Studio 経由でMacBook Pro M5上で動かしています（そして llm-lmstudio プラグインも）。――ここに書き起こし：

自転車のフレームは形が正しい。空には雲がある。ペリカンはダサそうなポーチを持っている。地面のキャプションには「Pelican on a Bicycle！」と書かれている！

そしてこちらは、Anthropicの新しく出たClaude Opus 4.7 から私が得たものです（書き起こし）：

自転車のフレームは完全に形が違っている。雲なし、黄色い太陽。ペリカンは自分の後ろを見ていて、私が期待するほどポーチがはっきりしていない。

これはQwen 3.6に譲ります。Opusは自転車のフレームを台無しにできてしまった！

thinking_level: max を渡してOpusを2回目に試しました。結果はあまり良くなりませんでした（書き起こし）：

自転車のフレームは完全に形が違っているが、別のやり方でそうなっている。線が太い。ペリカンがもう少しだけペリカンっぽく見える。

私はQwenがズルをしているとは思わない

多くの人が、このくだらないベンチマークのために、研究所が学習させていると確信している。私はそうは思いませんが、正直に言うと、この結果は少しだけ疑わしく見せてくれました。そこで私は、秘密のバックアップテストの1つを燃やします――ここにQwen3.6-35B-A3BとOpus 4.7に対して「自転車に乗っているフラミンゴのSVGを生成して」という指示で得たものがあります：

ユニサイクルのスポークが長すぎる。ペリカンはサングラスをかけていて蝶ネクタイをし、タバコを吸っているように見える。キャプションの「Flamingo on a Unicycle」を囲むようにハートの絵文字が2つある。かなりのカリスマがある。 — Qwen3.6-35B-A3B
(書き起こし)

ユニサイクルには黒い車輪がある。フラミンゴは、うまいが少し退屈な、フラミンゴのベクターイラストだ。いまいち華がない。 — Opus 4.7
(書き起こし)

これはQwenにします。理由の一部は、素晴らしい  のSVGコメントのおかげです。

この件から学べることは何でしょう？

ペリカンのベンチマークは、最初からずっと冗談として意図されてきました――主に、これらのモデルを比較するという仕事が、どれほど頓珍漢で無意味なものかを示すためのものです。

その冗談の気味の悪さは、概ね――生成されるペリカンの品質と、モデルの一般的な有用性との間に、直接的な相関関係があったことです。2024年10月の最初のペリカンはゴミでした。より最近のエントリは、概ね非常に、非常に良くなっています。そこまで来ていて、Gemini 3.1 Proは、ペリカンが自転車に乗っていることをどこかで図示する切実な必要があるなら、実際に使えるようなイラストを出すレベルにまでなりました。

しかし今日、その“ゆるい”つながりさえも壊れてしまいました。私はQwenに大きな敬意を払っていますが、最新モデルの21GB量子化版が、Anthropicの最新の独自リリースよりも強力かつ有用だと私はあまり思えません。

ただし、必要なものが「自転車に乗っているペリカン」のSVGイラストであるなら、今この時点では、ノートPCで動くQwen3.6-35B-A3BのほうがOpus 4.7より良い選択肢です！

2026年4月16日 16th April 2026 の17:16に投稿 · Mastodon、Bluesky、Twitter もしくはニュースレターを購読してください