DC-Ada:報酬のみの分散型観測インターフェース適応による、異種マルチロボットチーム向け手法

arXiv cs.RO / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、センサの有無や視野・範囲の不一致など「異機種(ヘテロジニティ)」があると、同じ行動インターフェースでも事前学習済み共有ポリシーが大きく性能劣化し得る問題を示している。
  • DC-Adaは共有ポリシー本体は凍結したまま、各ロボットの観測を共通の推論インターフェースへ写像するコンパクトな観測変換のみを報酬のみで適応する分散手法である。
  • 学習は勾配不要(gradient-free)で、通信も最小化するために、予算付きのaccept/rejectランダム探索と、短い共通乱数ロールアウトをステップ予算の範囲内で用いる。
  • 決定的な2Dマルチロボットシミュレータで複数タスク(倉庫物流・捜索救助・協調地図作成)と複数のヘテロジニティ条件(H0〜H3)を評価し、ヘテロジニティによる劣化は大きく、かつ単一手法が全指標・全タスクで常に優位とは限らないと結論している。
  • 記述された結果では、倉庫物流では観測正規化が報酬頑健性に強く、捜索救助でも競争力があり、協調地図作成では凍結共有ポリシーが報酬面で強いなど、DC-Adaは特定の運用点(特に厳しいカバレッジ系の地図作成で完了率向上)を補完的に提供するとしている。