LUDOBENCH:ルドのスポットベースのボードゲーム状況を通じてLLMの行動的意思決定を評価する

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LudoBenchは、サイコロによる不確実性と計画に関わる仕組みを備えた、確率的なマルチエージェント・ボードゲームであるLudoにおいて、LLMの戦略的意思決定を評価するための新しいベンチマークとして紹介される。
  • このベンチマークには、12の意思決定カテゴリにまたがる480の手作り(ハンドクラフト)スポットシナリオが含まれ、モデルの挙動をより解釈しやすく、診断もしやすくするために特定の戦略的選択を切り分けている。
  • 同伴する4人用Ludoシミュレータは、Random、Heuristic、Game-Theory(深さ制限付きExpectiminimax)、およびLLMエージェントをサポートし、原理的な戦略的ベースラインとの比較を可能にする。
  • 6つのモデルに対する実験では、ゲーム理論エージェントとの整合性が低く(40〜46%のみ)、モデルは不完全な戦略パターンとして「フィニッシャー」と「ビルダー」の2つの群にクラスタリングされる。
  • モデルはまた、プロンプト/履歴への感度も示しており、同一の盤面状態に対して、恨み(グラッジ)型の枠組みを用いた場合に測定可能な行動変化が生じることが確認され、不確実性下での頑健な推論に脆弱性があることが示唆される。

要旨: ダイスのメカニクス、駒の捕獲、安全マスのナビゲーション、ホームへの進行といった要素が、意味のある計画の複雑さを生み出す確率的なマルチエージェント・ボードゲーム「ルード(Ludo)」におけるLLMの戦略的推論を評価するためのベンチマーク、LudoBenchを導入します。LudoBenchは、行動上の性質が異なる12の意思決定カテゴリにまたがって合計480の手作りスポット(状況)シナリオを収録しており、それぞれが特定の戦略的選択を分離しています。さらに、Random、Heuristic、Game-Theory、LLMエージェントをサポートする、4人用の完全に機能するルード・シミュレータも新たに提供します。ゲーム理論エージェントは、深さ制限付きの先読みを行うExpectiminimax探索を用いて、貪欲なヒューリスティックを超える、原理に基づいた戦略的上限を提示します。4つのモデルファミリにまたがる6つのモデルを評価したところ、いずれのモデルもゲーム理論のベースラインと一致するのは40〜46%の時間にとどまることが分かりました。モデルは異なる行動的アーキタイプに分かれます。すなわち、駒を完成させるが開発を怠る「完了者(finishers)」と、開発するが一度も完成しない「建設者(builders)」です。これらのアーキタイプは、ゲーム理論の戦略のそれぞれをわずか半分しか捉えられていません。さらに、同一の盤面状態に対して、履歴に条件付けした恨み(grudge)型のフレーミングを行うことで、モデルに測定可能な行動の変化が現れ、プロンプト感度が主要な脆弱性であることを示します。LudoBenchは、不確実性のもとでのLLMの戦略的推論をベンチマークするための、軽量で解釈可能な枠組みを提供します。すべてのコード、スポット・データセット(480件)、およびモデル出力は https://anonymous.4open.science/r/LudoBench-5CBF/ で利用可能です。