| こんにちは、LocalLlamaさん。 以下は GACL の3月実行の結果です。私からのいくつかの観察点:
参考までに、GACL は、モデルが 7つの異なるゲーム をプレイするための エージェントコード を生成するリーグです。各モデルは 2体のエージェント を生み出し、それぞれのエージェントは、同じモデルのペアとなる“友好的”エージェントを除き、すべてのエージェントと対戦します。つまり、モデル自体がゲームをプレイするのではなく、それを行うエージェントを生成するのです。リーダーボードを作成する際には、各モデルのトップパフォーマンスのエージェントのみが考慮されます。 すべての ゲームログ、スコアボード、および生成されたエージェントコード はリーグのページで公開されています。 [リンク] [コメント] |
Qwen3.5-27B は Game Agent Coding League において 397B および GPT-5 mini にほぼ匹敵する性能を発揮する
Reddit r/LocalLLaMA / 2026/3/15
📰 ニュースSignals & Early TrendsModels & Research
要点
- Game Agent Coding League の3月の実行では GPT-5.4 がトップを走り、Qwen3.5-27B は 397B に背後にわずか 0.04 ポイント差で追従し、強い競争力を示しています。
- Qwen3.5-27B は他の Qwen モデルを凌ぎ、397B の背後にわずか 0.04 ポイント差で追随しています。
- GACL では、モデルは2体のエージェントを生成し、7つのゲームで競います。各モデルの最高のエージェントのみがリーダーボードに使用され、すべてのゲームログ、スコアボード、生成コードが公開されています。
- ベンチマークは、小型のオープンウェイトモデルが大規模モデルの能力へ近づく傾向を示しており、継続的な効率改善とベンチマークの関連性が示唆されています。