(インタラクティブ)OpenCode レーシングゲーム比較：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

Reddit r/LocalLLaMA / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

このインタラクティブページでは、さまざまなモデルが生成したLLM駆動の「レーシングゲーム」を実際に遊び、コード生成や改変のされ方を比較できます。
作成者は手法として、視覚（ビジョン）を無効化し、Planモードで同一の初期プロンプトを用い、Playwright MCPを有効化してゲームを動かしながら複数ターンの指示で問題点をモデルに伝えたと説明しています。
モデルごとの挙動の違いとして、Qwen3 Coder Nextは「見えない壁」でコースを作っているように見えること、Gemma 4 31BとQwen3.5 27Bは各ターンで毎回フルのコードを出力すること、そしてQwen3.5 27Bが最終ターンでPlaywright MCPを無効化した“偶然”がきっかけで動き・操舵がうまくいったことなどが挙げられます。
ほかにも、Gemma 4 26Bがサウンドを追加したりサブエージェントを生成したりするなど、各モデルが固有の機能を加える様子が観察されています。
最後に、再制作するなら改善したい点（視覚を無効化しないこと、各HTML版を保存・表示して再現性を高めることなど）にも触れています。

（インタラクティブ）OpenCode レーシングゲーム比較：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

ここで遊べます： https://fatheredpuma81.github.io/LLM_Racing_Games/

これは当初、Qwen3 Coder Next と Qwen3.5 4B の単純なテストとして始めました。両者はベンチマーク数値が似ていたからです。そこから他のモデルもいろいろ試し続けるうちに、あまり満足できるやり方ではなかったものの、とりあえず共有してみてもいいかなと思うようになりました。

どのようにして作ったかを知りたいなら、右上の「How this works」を読んでください。ただしTLDRはこうです：視覚（Vision）を無効化し、Planモードで同じ初期プロンプトを送信、Playwright MCPを有効化して同じ開始プロンプトを送信し、その後、3ターンかけてゲームをテストして、見つけた問題点をLLMに指摘しました。

もしこれを作り直す機会があったら、いろいろ違うことをすると思います。たとえば、1つではなくHTMLを4バージョンすべて保持して表示すること、Visionを無効化しないこと（Qwen 27Bの足を大きく引っ張っていました。4BとCoderの間の「同条件（apples to apples）」比較のためにだけ無効化したのです）、などです。ほかにもいろいろ考えたことはあったのですが、疲れていて思い出せません。

面白いメモ：

Qwen3 Coder Next のゲームには確かにトラックがありますが、見えない壁で構成されているようです。
Gemma 4 31B と Qwen3.5 27B は、毎ターン完全なコードを出力します。他のものは主にコードを編集する形でした。
Gemma 4 31B のゲームには、ある時点で実際に道路がありました。
Qwen3.5 27B では、最終ターンで誤って Playwright MCP を無効化してしまったことが、実際にそこそこ良い速度で動いてステアする車につながりました。最初のHTMLと最後のHTMLで本質的に変わったのは、木が追加されたことだけです。
Qwen3.5 27B だけが、回転するタイヤを持っています。もちろん、見えるわけではありません。
Gemma 4 26B だけが音を追加しました。
Gemma 4 26B は、壁に触れると「ロケット団（Team Rocket）」の車がまた発射されるような追加をしましたが、その途中で OpenCode がだいたいクラッシュしてしまったので、ロールバックする必要がありました。その結果、あまり面白くないサウンド版になりました。
GLM 4.7 Flash と Gemma 4 26B だけがサブエージェントを生成しました。GLM は Planning 中のリサーチにそれを使い、Gemma は最終ターンでサウンドを実装するのにそれを使いました。
GLM 4.7 Flash は、Q8_0 K Cache の量子化をやろうとすると壊れてしまうことが分かりました。
Qwen3.5 4B は NPX を使って自前の Playwright バージョンをインストールし、その後、バグ修正のターン2/3で両方を使い始めました。
GLM 4.7 Flash は最終出力が白い画面になって失敗したので、1ターン戻って「コードをもう一度完全に出力して」と依頼しました。なので、結局 2ターン分しかうまくいかなかった、ってことだと思います？
Qwen3.6 35B のゲームは、開始時点から多くの点で後退していました。画面のジッターはなくなり、トラックはかなり狭くなり、当たり判定（ヒットボックス）は壁に対してきっちり合っていました。ただしミニマップはもっと壊れていて、Minimap のトラックと物理的なトラックの混同をしてしまったのだと思います。