大規模（または無限）状態空間における線形関数近似で、線形近似付きロバスト・マルコフゲームに潜むマルチエージェントの呪いを抑える

arXiv cs.LG / 2026/5/6

📰 ニュースModels & Research

共有:

要点

本論文は、環境モデルの不確実性に対して最悪ケース性能を最適化することを目的に、マルチエージェント強化学習における分布ロバスト・マルコフゲームを扱います。
エージェント数の増加に伴って状態・行動の同時空間が急拡大し、データ効率が急激に悪化する「マルチエージェントの呪い」への対処が主題であり、従来の証明付き効率的手法は主に小規模な表形式（tabular）に限られていると述べています。
著者らは、線形関数近似（LFA）を用いることで、大規模（場合によっては無限）な状態空間でもロバスト・マルコフゲーム学習を可能にし、データ効率を保証するアルゴリズムを構築します。
不確実性集合が全変動距離（total variation distance）で定義される場合について、生成モデル設定と、あらたに提案されるオンライン・インタラクティブ設定の両方で、呪いを破るサンプル複雑度の達成を示します。
著者らによれば、ロバスト・マルコフゲームで大規模状態空間に対してサンプル複雑度を改善し、その結果を不確実性集合の構成方法に依存しない形で示した最初の成果だと主張しています。

日経XTECH

MarkTechPost

Reddit r/LocalLLaMA

Qiita

Reddit r/LocalLLaMA