我々はこの状況を、遅延通信の部分観測マルコフゲーム(DeComm-POMG)として形式化し、メッセージの効果を \,\emph{通信による利得} と \emph{遅延コスト} に分解することで、\text{通信利得と遅延コスト(CGDC)} の指標を導出する。
さらに、遅延したメッセージによって引き起こされる劣化は、適時のメッセージと遅延したメッセージが誘導する行動分布の間に生じる情報ギャップを、割引した蓄積として上界で評価できることを示す価値損失の上界を確立する。
CGDC に導かれ、予測される CGDC が正の場合にのみメッセージを要求する、さらに消費時の位置ずれを減らすために将来の観測を予測する、そして CGDC に導かれた注意により遅延メッセージを統合する、\textbf{CDCMA} というアクター—クリティックの枠組みを提案する。
協調ナビゲーションおよび捕食者—被捕食者(Predator Prey)の「チームメイトの視覚なし」バリアント、ならびに複数の遅延レベルにわたる SMAC マップに対する実験では、性能・頑健性・汎化において一貫した改善が示され、アブレーションにより各コンポーネントが検証される。
協調型マルチエージェント強化学習におけるクロスタイムステップ遅延下での通信利得と遅延コストの分解
arXiv cs.AI / 2026/4/7
📰 ニュース
要点
- 本論文は、メッセージが送信されてから複数ステップ後に到着し、時間的にずれて(ミスアライン)しまうクロスタイムステップ通信遅延のもとで、協調型マルチエージェント強化学習を扱う。