ノートPCで動かしたQwen3.6-35B-A3Bが、Claude Opus 4.7よりも優れたペリカン(自転車に乗るやつ)を描いてくれた

Simon Willison's Blog / 2026/4/17

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この投稿では、サイモン・ウィリソンの「自転車に乗るペリカン」ベンチマークを使って、2つの新しくリリースされた大規模言語モデル(AlibabaのQwen3.6-35B-A3BとAnthropicのClaude Opus 4.7)を比較している。
  • LM Studioを通じてMacBook Pro上で量子化したQwen3.6-35B-A3Bモデルをローカル実行したところ、作者のClaudeの結果よりも、より正確な自転車のフレームと、より首尾一貫したシーンが得られた。
  • 作者は、Claude Opus 4.7が自転車のフレームについて「形状が完全に間違っていた」と述べており、`thinking_level`をmaxに引き上げても結果は大きく改善しなかったとしている。
  • 記事では、両モデルの生成の違いを示すために、直接の書き起こし(gist)とサンプル画像を掲載している。
  • 総じて、この特定の視覚的推論/生成タスクに関しては、作者の手元の検証環境ではQwen3.6-35B-A3Bの方がOpus 4.7を上回ったことを示唆している。
スポンサー: Teleport — Teleport Beamsで数秒でエージェントをインフラに接続。組み込みのID。秘密情報なし。 早期アクセスを取得

私のノートPCで動かしたQwen3.6-35B-A3Bは、Claude Opus 4.7よりも“良い”ペリカンを描いた

2026年4月16日

誰かが(賢明ではないにもかかわらず)私の ペリカンが自転車に乗るベンチマーク を、モデルをテストする頑丈な方法として真剣に取り上げているなら、今朝の2つの大きなモデルリリースからのペリカンたちを紹介します――AlibabaのQwen3.6-35B-A3BAnthropicのClaude Opus 4.7 です。

こちらは、この20.9GBのQwen3.6-35B-A3B-UD-Q4_K_S.gguf をUnslothが量子化したモデルを使って生成したQwen 3.6のペリカンで、LM Studio 経由でMacBook Pro M5上で動かしています(そして llm-lmstudio プラグインも)。――ここに書き起こし

自転車のフレームは形が正しい。空には雲がある。ペリカンはダサそうなポーチを持っている。地面のキャプションには「Pelican on a Bicycle!」と書かれている!

そしてこちらは、Anthropicの新しく出たClaude Opus 4.7 から私が得たものです(書き起こし):

自転車のフレームは完全に形が違っている。雲なし、黄色い太陽。ペリカンは自分の後ろを見ていて、私が期待するほどポーチがはっきりしていない。

これはQwen 3.6に譲ります。Opusは自転車のフレームを台無しにできてしまった!

thinking_level: max を渡してOpusを2回目に試しました。結果はあまり良くなりませんでした(書き起こし):

自転車のフレームは完全に形が違っているが、別のやり方でそうなっている。線が太い。ペリカンがもう少しだけペリカンっぽく見える。

私はQwenがズルをしているとは思わない

多くの人が、このくだらないベンチマークのために、研究所が学習させていると確信している。私はそうは思いませんが、正直に言うと、この結果は少しだけ疑わしく見せてくれました。そこで私は、秘密のバックアップテストの1つを燃やします――ここにQwen3.6-35B-A3BとOpus 4.7に対して「自転車に乗っているフラミンゴのSVGを生成して」という指示で得たものがあります:

Qwen3.6-35B-A3B
(書き起こし)
ユニサイクルのスポークが長すぎる。ペリカンはサングラスをかけていて蝶ネクタイをし、タバコを吸っているように見える。キャプションの「Flamingo on a Unicycle」を囲むようにハートの絵文字が2つある。かなりのカリスマがある。
Opus 4.7
(書き起こし)
ユニサイクルには黒い車輪がある。フラミンゴは、うまいが少し退屈な、フラミンゴのベクターイラストだ。いまいち華がない。

これはQwenにします。理由の一部は、素晴らしい <!-- Sunglasses on flamingo! --> のSVGコメントのおかげです。

この件から学べることは何でしょう?

ペリカンのベンチマークは、最初からずっと冗談として意図されてきました――主に、これらのモデルを比較するという仕事が、どれほど頓珍漢で無意味なものかを示すためのものです。

その冗談の気味の悪さは、概ね――生成されるペリカンの品質と、モデルの一般的な有用性との間に、直接的な相関関係があったことです。2024年10月の最初のペリカン はゴミでした。より最近のエントリ は、概ね非常に、非常に良くなっています。そこまで来ていて、Gemini 3.1 Proは、ペリカンが自転車に乗っていることをどこかで図示する切実な必要があるなら、実際に使えるようなイラスト を出すレベルにまでなりました。

しかし今日、その“ゆるい”つながりさえも壊れてしまいました。私はQwenに大きな敬意を払っていますが、最新モデルの21GB量子化版が、Anthropicの最新の独自リリースよりも強力かつ有用だと私はあまり思えません。

ただし、必要なものが「自転車に乗っているペリカン」のSVGイラストであるなら、今この時点では、ノートPCで動くQwen3.6-35B-A3BのほうがOpus 4.7より良い選択肢です!

2026年4月16日 16th April 2026 の17:16に投稿 · MastodonBlueskyTwitter もしくは ニュースレターを購読 してください

これはSimon Willisonによる私のノートPCで動かしたQwen3.6-35B-A3Bは、Claude Opus 4.7よりも“良い”ペリカンを描いた(2026年4月16日 16th April 2026 投稿)です。

返却形式: {"translated": "翻訳されたHTML"} ai 1963 generative-ai 1742 local-llms 154 llms 1709 anthropic 270 claude 267 qwen 54 pelican-riding-a-bicycle 105 llm-release 191 lm-studio 19

前回: Metaの新モデルはMuse Sparkで、meta.aiのチャットにはいくつかの興味深いツールがあります

月次ブリーフィング

月額10ドルでスポンサーになって、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。

もっと少なく送るために、私にお金を払ってください!

スポンサー&購読