| ここで遊べます: https://fatheredpuma81.github.io/LLM_Racing_Games/ これは当初、Qwen3 Coder Next と Qwen3.5 4B の単純なテストとして始めました。両者はベンチマーク数値が似ていたからです。そこから他のモデルもいろいろ試し続けるうちに、あまり満足できるやり方ではなかったものの、とりあえず共有してみてもいいかなと思うようになりました。 どのようにして作ったかを知りたいなら、右上の「How this works」を読んでください。ただしTLDRはこうです:視覚(Vision)を無効化し、Planモードで同じ初期プロンプトを送信、Playwright MCPを有効化して同じ開始プロンプトを送信し、その後、3ターンかけてゲームをテストして、見つけた問題点をLLMに指摘しました。 もしこれを作り直す機会があったら、いろいろ違うことをすると思います。たとえば、1つではなくHTMLを4バージョンすべて保持して表示すること、Visionを無効化しないこと(Qwen 27Bの足を大きく引っ張っていました。4BとCoderの間の「同条件(apples to apples)」比較のためにだけ無効化したのです)、などです。ほかにもいろいろ考えたことはあったのですが、疲れていて思い出せません。 面白いメモ:
[リンク] [コメント] |
(インタラクティブ)OpenCode レーシングゲーム比較:Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash
Reddit r/LocalLLaMA / 2026/4/21
💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage
要点
- このインタラクティブページでは、さまざまなモデルが生成したLLM駆動の「レーシングゲーム」を実際に遊び、コード生成や改変のされ方を比較できます。
- 作成者は手法として、視覚(ビジョン)を無効化し、Planモードで同一の初期プロンプトを用い、Playwright MCPを有効化してゲームを動かしながら複数ターンの指示で問題点をモデルに伝えたと説明しています。
- モデルごとの挙動の違いとして、Qwen3 Coder Nextは「見えない壁」でコースを作っているように見えること、Gemma 4 31BとQwen3.5 27Bは各ターンで毎回フルのコードを出力すること、そしてQwen3.5 27Bが最終ターンでPlaywright MCPを無効化した“偶然”がきっかけで動き・操舵がうまくいったことなどが挙げられます。
- ほかにも、Gemma 4 26Bがサウンドを追加したりサブエージェントを生成したりするなど、各モデルが固有の機能を加える様子が観察されています。
- 最後に、再制作するなら改善したい点(視覚を無効化しないこと、各HTML版を保存・表示して再現性を高めることなど)にも触れています。




