1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to / 2026/3/23

📰 ニュースTools & Practical UsageModels & Research

要点

  • ベンチマークは、RTSゲームのユニットを制御するコードを書かせるタスクで、利用可能なアクションは move() と pew() のみとする。9対9の設定で戦略的推論を重視する。
  • 評価方法には、人間がコードしたボットに対する10ラウンドのベースラインフェーズ、続いてASCIIのゲーム状態スナップショットとモデル生成ログを含む反復的な改善とレビューを伴う10ゲームのラウンドロビン大会が含まれる。
  • Gemini 3.1 がこのベンチマークで最も優れた成績を示し、結果とリプレイはリンクされたアリーナページにホストされている。
  • 評価アプローチは、コード生成、プレイ、コンソール/ASCII状態のログを通じた再現性と解釈性に焦点を当て、モデルの挙動を比較する。

結果と追加の詳細へのリンク: https://yare.io/ai-arena

\"

ゲームはかなりシンプルです。9対9のユニットが基本的なマップ上で互いに戦います。ユニットが行える唯一のアクションは move() と pew() です。複雑さは、どこへ移動するか、誰に pew するかを推論することにあります。

テスト方法

すべてのLLMはまず、自分の「ベースライン」ボットを、十分な強さを持つ人間がコードしたボットと10ラウンド対戦して作成します。1ラウンドは次の要素から成ります:

  • ゲームのドキュメントに基づいてコードを書く
  • ゲームをプレイする(モデルは追跡したい重要な情報として console.log() を追加してもよい)
  • 完成したゲームのレビューを得る(重要な瞬間におけるゲーム状態のASCII表現と、自分自身がコードしたログを含む)

ベースラインボットが用意できたら、同じ反復ループで、互いに10ゲームのラウンドロビン・トーナメントを行い、各ゲームごとにボットを改善します。

結果

この特定のベンチマーク/ゲームでは、Gemini 3.1 が断然最も優れています。リプレイと追加の詳細は https://yare.io/ai-arena をご覧ください。