1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to / 2026/3/23

📰 ニュースTools & Practical UsageModels & Research

原文を読む →

共有:

要点

ベンチマークは、RTSゲームのユニットを制御するコードを書かせるタスクで、利用可能なアクションは move() と pew() のみとする。9対9の設定で戦略的推論を重視する。
評価方法には、人間がコードしたボットに対する10ラウンドのベースラインフェーズ、続いてASCIIのゲーム状態スナップショットとモデル生成ログを含む反復的な改善とレビューを伴う10ゲームのラウンドロビン大会が含まれる。
Gemini 3.1 がこのベンチマークで最も優れた成績を示し、結果とリプレイはリンクされたアリーナページにホストされている。
評価アプローチは、コード生成、プレイ、コンソール/ASCII状態のログを通じた再現性と解釈性に焦点を当て、モデルの挙動を比較する。

結果と追加の詳細へのリンク: https://yare.io/ai-arena

$\"$

ゲームはかなりシンプルです。9対9のユニットが基本的なマップ上で互いに戦います。ユニットが行える唯一のアクションは move() と pew() です。複雑さは、どこへ移動するか、誰に pew するかを推論することにあります。

テスト方法

すべてのLLMはまず、自分の「ベースライン」ボットを、十分な強さを持つ人間がコードしたボットと10ラウンド対戦して作成します。1ラウンドは次の要素から成ります:

ゲームのドキュメントに基づいてコードを書く
ゲームをプレイする（モデルは追跡したい重要な情報として console.log() を追加してもよい）
完成したゲームのレビューを得る（重要な瞬間におけるゲーム状態のASCII表現と、自分自身がコードしたログを含む）

ベースラインボットが用意できたら、同じ反復ループで、互いに10ゲームのラウンドロビン・トーナメントを行い、各ゲームごとにボットを改善します。

結果

この特定のベンチマーク/ゲームでは、Gemini 3.1 が断然最も優れています。リプレイと追加の詳細は https://yare.io/ai-arena をご覧ください。

Black Hat USA

AI Business

紙の資料をChatGPTで分析、表をExcelに変換利用制限に注意

日経XTECH

LlamaStation v0.9 — マルチバックエンド対応のWindows向け llama.cpp GUI、TurboQuantやMTPなど

Reddit r/LocalLLaMA

AIで革新するホテルフロント業務

Dev.to

AI開発用PCとしてのAppleシリコン：M4 Maxは70Bモデルで実際に何をするのか

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

要点

テスト方法

結果

関連記事

Black Hat USA

紙の資料をChatGPTで分析、表をExcelに変換利用制限に注意

LlamaStation v0.9 — マルチバックエンド対応のWindows向け llama.cpp GUI、TurboQuantやMTPなど

AIで革新するホテルフロント業務

AI開発用PCとしてのAppleシリコン：M4 Maxは70Bモデルで実際に何をするのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

テスト方法

結果

関連記事

Black Hat USA

紙の資料をChatGPTで分析、表をExcelに変換 利用制限に注意

LlamaStation v0.9 — マルチバックエンド対応のWindows向け llama.cpp GUI、TurboQuantやMTPなど

AIで革新するホテルフロント業務

AI開発用PCとしてのAppleシリコン：M4 Maxは70Bモデルで実際に何をするのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

紙の資料をChatGPTで分析、表をExcelに変換利用制限に注意