Strat-Reasoner：マルチエージェントゲームにおけるLLMの戦略的推論を強化する

arXiv cs.AI / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、マルチエージェントゲームでは結果が全エージェントの共同戦略に依存するため、LLMはうまく推論できないと指摘し、他エージェントの振る舞いが変化する非定常性が評価と推論ステップ間のクレジット割り当てを難しくすると述べています。
提案手法Strat-Reasonerは、再帰的な推論パラダイムを用いて、エージェントの推論に他エージェントの推論プロセスを明示的に組み込むことで、LLMの戦略的推論を強化するRLベースのフレームワークです。
中間の推論列に対して有効な報酬信号を与えるために、中央集権型のChain-of-Thought（CoT）比較モジュールで推論の質を評価します。
ハイブリッドなアドバンテージを計算し、グループ相対型のRLアプローチでLLMの方策を最適化します。
複数のマルチエージェントゲームでの実験結果では、基盤LLMの戦略能力が平均22.1%向上したことが示されています。