Qwen3.5-27B は Game Agent Coding League において 397B および GPT-5 mini にほぼ匹敵する性能を発揮する

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

Game Agent Coding League の3月の実行では GPT-5.4 がトップを走り、Qwen3.5-27B は 397B に背後にわずか 0.04 ポイント差で追従し、強い競争力を示しています。
Qwen3.5-27B は他の Qwen モデルを凌ぎ、397B の背後にわずか 0.04 ポイント差で追随しています。
GACL では、モデルは2体のエージェントを生成し、7つのゲームで競います。各モデルの最高のエージェントのみがリーダーボードに使用され、すべてのゲームログ、スコアボード、生成コードが公開されています。
ベンチマークは、小型のオープンウェイトモデルが大規模モデルの能力へ近づく傾向を示しており、継続的な効率改善とベンチマークの関連性が示唆されています。

Qwen3.5-27B performs almost on par with 397B and GPT-5 mini in the Game Agent Coding League

こんにちは、LocalLlamaさん。

以下は GACL の3月実行の結果です。私からのいくつかの観察点：

GPT-5.4 は現在、主要モデルの中で明確に首位を走っています。
Qwen3.5-27B は他のすべての Qwen モデルより優れており、397B の背後にわずか 0.04 ポイント差で追随しています。私の意見では、これは卓越したモデルです。
Kimi2.5 は現在、トップ オープンウェイト モデルで、グローバルで #6 globally にランク付けされており、GLM-5 は次いで #7 globally です。
Opus と Sonnet の間には、予想以上に顕著な差が見られます。
GPT モデルが Battleship ゲームを支配しています。 しかし、Tic-Tac-Toe はほぼ全モデルが同程度の成績だったため、ベンチマークとしては機能しませんでした。来月は別のゲームに置換する予定です。提案は歓迎します。

参考までに、GACL は、モデルが 7つの異なるゲーム をプレイするための エージェントコード を生成するリーグです。各モデルは 2体のエージェント を生み出し、それぞれのエージェントは、同じモデルのペアとなる“友好的”エージェントを除き、すべてのエージェントと対戦します。つまり、モデル自体がゲームをプレイするのではなく、それを行うエージェントを生成するのです。リーダーボードを作成する際には、各モデルのトップパフォーマンスのエージェントのみが考慮されます。

すべての ゲームログ、スコアボード、および生成されたエージェントコード はリーグのページで公開されています。

Github Link

League Link

投稿者 /u/kyazoglu
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/15Dailyインサイトを見る →

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

Qwen3.5-27B は Game Agent Coding League において 397B および GPT-5 mini にほぼ匹敵する性能を発揮する

要点

💡 この記事が使われたインサイト

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer