汎用ゲームプレイにおける最適エージェント特定のための手法

arXiv stat.ML / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、マルチプロブレム領域の各サブタスクに対して「最良（または準最良）」のアルゴリズムを特定するための汎用手順を提案し、それをマルチアームドバンディットのベストアーム識別問題としてモデル化する。
バンディットはタスクを、アームはエージェント／アルゴリズムを表し、単純な後悔（simple regret）への影響可能性に基づいてアームを順位付けする楽観的な信頼区間ベースの選択戦略を用いる。
実験ではGeneral Video Game AI（GVGAI）とLudiiという2つの汎用ゲームプレイ領域で評価し、既存のベストアーム識別手法に比べて平均simple regretを大きく低減し、誤り確率を下げられることを示す。
この手法は、一般ゲームフレームワークにおけるエージェント評価の質と精度を高めるだけでなく、計算（ランタイム）が大きいマルチタスク領域にも適用し得ると位置付けられている。

要旨: 多問題ドメインにおける各下位タスクについて、最良（またはほぼ最良）となるアルゴリズムを正確に特定するための、効率的かつ一般化された手続きを提案します。私たちのアプローチは、各バンディットが特定のタスクに対応し、各アームが特定のアルゴリズムまたはエージェントに対応する、多腕バンディットにおける一連の最良アーム識別問題としてこれを捉えます。私たちは、選択した信頼区間に基づく楽観的な選択プロセスを提案し、全バンディットにまたがって各アームを、その全体の単純後悔（simple regret）に対して及ぼし得る影響という観点から順位付けします。私たちは、限られた試行回数で各ゲームに対して高性能なエージェントを選択することを目的として、最も人気の高い汎用ゲームプレイ分野のうち2つ、General Video Game AI (GVGAI) フレームワークとLudii 汎用ゲームプレイシステムにおいて提案手法の性能を評価します。多腕バンディットにおける従来の最良アーム識別アルゴリズムと比べて、平均単純後悔および平均誤り確率の観点で、顕著な性能向上が示されます。この新規のアプローチは、一般ゲーム・フレームワークにおけるエージェント評価手続き、ならびに高いアルゴリズム実行時間を持つ他のマルチタスク分野において、品質と精度を大きく改善するために利用できます。