M$^{2}$GRPO:バイオミメティックな水中ロボットの追跡のためのマンバベース・マルチエージェント・グループ相対方策最適化
arXiv cs.RO / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、長期的な意思決定、部分観測、ロボット間の協調が必要なバイオミメティック水中ロボットの協調追跡のために、新しいマルチエージェント強化学習フレームワークM$^{2}$GRPOを提案する。
- M$^{2}$GRPOは、CTDE(集中学習・分散実行)パラダイムのもと、選択的状態空間Mambaポリシーと、グループ相対の方策最適化を統合している。
- Mambaポリシーは観測履歴を用いて長期的な時間依存を捉え、注意機構によるリレーショナル特徴でエージェント間相互作用を符号化し、正規化ガウスサンプリングにより有界な連続行動を生成する。
- 安定性を損なわずにクレジット割当を改善するため、エピソードごとにエージェント間で報酬を正規化し、GRPOのマルチエージェント拡張で最適化することで、学習に必要な計算資源を削減する。
- シミュレーションと実環境(プール実験)の双方で、M$^{2}$GRPOはMAPPOおよびリカレント基線よりも、追跡成功率と捕捉効率の両面で一貫して優れていることが示される。


