アブストラクト: 部分観測下におけるマルチエージェントの協調では、エージェントが補完的な非公開情報を共有する必要がある。近年の手法は、(再構成精度や相互情報量など)中間的な目的のためにメッセージを最適化する一方で、意思決定の質ではない。そこで本研究では、タスク性能のための意思決定に焦点を当てた学習を、逐次通信と統合する extbf{SeqComm-DFL} を提案する。我々の手法は、 extit{逐次スタッケルベルグ条件付けを伴う価値認識型メッセージ生成} を特徴とし、メッセージは受信側の意思決定の質を最大化し、優先順位順に生成される。各エージェントは自分より前のエージェントに条件付ける。 extit{その利他的な順序づけによって定まるガイダンス可能性(guidance potential)} 。さらに、我々は QMIX の因数分解を用いた、通信を拡張した世界モデルへ Optimal Model Design を拡張し、暗黙的な微分による効率的なエンドツーエンド学習を可能にする。通信価値が協調のギャップとともにどのようにスケールするかを示す情報理論的な上界を証明し、二水準最適化に対して の収束を確立する。ここで
mathcal{O}(1/sqrt{T})T は学習反復回数を表す。共同ヘルスケアおよび StarCraft Multi-Agent Challenge(SMAC)のベンチマークにおいて、SeqComm-DFL は累積報酬で 4〜6 倍の向上、勝率で 13 extperthousand% 以上の改善を達成し、情報の非対称性の下では実現不可能な協調戦略を可能にする。
価値を意識した逐次コミュニケーションによるマルチエージェント意思決定重視学習
arXiv cs.LG / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、再構成や相互情報量などの中間的なコミュニケーション目的ではなく、下流の意思決定品質を最大化するように通信メッセージを最適化するマルチエージェント手法 SeqComm-DFL を提案する。
- SeqComm-DFL は、逐次スタッケルベルグ条件付けにより優先順位順にメッセージを生成し、先行エージェントが伝える内容を考慮したうえで、各エージェントのメッセージ生成と意思決定を行えるようにする。
- コミュニケーション機構をコミュニケーション拡張型ワールドモデルに統合し、暗黙的微分による効率的なエンドツーエンド学習を可能にするために、QMIX ファクタリゼーションを用いて Optimal Model Design を拡張する。
- 著者らはコミュニケーション価値に関する情報理論的な上界・下界を提示し、関連する双レベル最適化目的に対して 9(1/√T) の収束率を示す。
- 協調医療タスクおよび StarCraft Multi-Agent Challenge(SMAC)において、SeqComm-DFL は、意思決定重視学習にメッセージを整合させない手法と比べて、累積報酬で 4〜6倍の向上、勝率で13%以上の改善を報告している。


