M2-PALE：プロセスマイニングとLLMによるマルチエージェントMCTS―ミニマックス・ハイブリッドの説明フレームワーク

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロールアウト段階でMCTSにミニマックスを組み込むことで、マルチエージェントMCTSエージェントの意思決定を説明するためのM2-PALEを提案している。
標準的なMCTSの弱点である「重要な手を見落としたり、戦術的な罠に陥りやすい」選択的な木の構築を、浅い全幅のミニマックス探索を導入することで補強する。
得られた意思決定ロジックを理解しやすくするために、プロセスマイニング（Alpha Miner、iDHM、Inductive Miner）でエージェント実行ログから行動ワークフローを抽出する。
抽出したプロセスモデルをLLMで統合し、原因（causal）と遠因（distal）に関する人間が読める説明を生成する。
チェッカーの小規模環境で有効性を検証し、より複雑な戦略領域でのハイブリッド・エージェント解釈に向けた拡張可能な基盤を示すと主張している。

Abstract

Monte-Carlo Tree Search（MCTS）は、逐次的意思決定の領域におけるオンライン計画で広く用いられている基本的なサンプリングベースの探索アルゴリズムである。近年の人工知能の進歩を牽引するなどの成功がある一方で、MCTSエージェントの挙動を理解することは、開発者にとっても利用者にとっても依然として難題である。この困難さは、多数の将来状態をシミュレーションすることで生成される複雑な探索木と、それらの間の入り組んだ関係に起因する。標準的なMCTSの既知の弱点は、高度に選択的な木の構築に依存することであり、その結果として重要な手が見落とされる可能性や、戦術的な罠への脆弱性につながり得る点にある。これを解決するために、戦略的な深みを高めることを目的として、マルチエージェントMCTSのロールアウト（試行）フェーズに浅い、かつフル幅のMinimax探索を組み込む。さらに、その結果得られる意思決定ロジックを分かりやすくするために、 \textsf{M2-PALE}（MCTS--Minimax Process-Aided Linguistic Explanations）を導入する。この枠組みでは、プロセス・マイニングの手法、具体的にはAlpha Miner、iDHM、Inductive Minerの各アルゴリズムを用いて、エージェントの実行トレースから基盤となる行動のワークフローを抽出する。次に、これらのプロセスモデルをLLMによって合成し、人間が読める因果的および遠隔的な説明を生成する。我々のアプローチの有効性を、小規模なチェッカー環境で実証し、ますます複雑な戦略領域におけるハイブリッドエージェントを解釈するためのスケーラブルな基盤を確立する。