Qwen3.5-27B は Game Agent Coding League において 397B および GPT-5 mini にほぼ匹敵する性能を発揮する

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Game Agent Coding League の3月の実行では GPT-5.4 がトップを走り、Qwen3.5-27B は 397B に背後にわずか 0.04 ポイント差で追従し、強い競争力を示しています。
  • Qwen3.5-27B は他の Qwen モデルを凌ぎ、397B の背後にわずか 0.04 ポイント差で追随しています。
  • GACL では、モデルは2体のエージェントを生成し、7つのゲームで競います。各モデルの最高のエージェントのみがリーダーボードに使用され、すべてのゲームログ、スコアボード、生成コードが公開されています。
  • ベンチマークは、小型のオープンウェイトモデルが大規模モデルの能力へ近づく傾向を示しており、継続的な効率改善とベンチマークの関連性が示唆されています。
Qwen3.5-27B performs almost on par with 397B and GPT-5 mini in the Game Agent Coding League

こんにちは、LocalLlamaさん。

以下は GACL の3月実行の結果です。私からのいくつかの観察点:

  • GPT-5.4 は現在、主要モデルの中で明確に首位を走っています。
  • Qwen3.5-27B は他のすべての Qwen モデルより優れており、397B の背後にわずか 0.04 ポイント差で追随しています。私の意見では、これは卓越したモデルです。
  • Kimi2.5 は現在、トップ オープンウェイト モデルで、グローバルで #6 globally にランク付けされており、GLM-5 は次いで #7 globally です。
  • Opus と Sonnet の間には、予想以上に顕著な差が見られます。
  • GPT モデルが Battleship ゲームを支配しています。 しかし、Tic-Tac-Toe はほぼ全モデルが同程度の成績だったため、ベンチマークとしては機能しませんでした。来月は別のゲームに置換する予定です。提案は歓迎します。

参考までに、GACL は、モデルが 7つの異なるゲーム をプレイするための エージェントコード を生成するリーグです。各モデルは 2体のエージェント を生み出し、それぞれのエージェントは、同じモデルのペアとなる“友好的”エージェントを除き、すべてのエージェントと対戦します。つまり、モデル自体がゲームをプレイするのではなく、それを行うエージェントを生成するのです。リーダーボードを作成する際には、各モデルのトップパフォーマンスのエージェントのみが考慮されます。

すべての ゲームログ、スコアボード、および生成されたエージェントコード はリーグのページで公開されています。

Github Link

League Link

投稿者 /u/kyazoglu
[リンク] [コメント]