DC-Ada: Reward-Only Decentralized Observation-Interface Adaptation for Heterogeneous Multi-Robot Teams

arXiv cs.RO / 4/7/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、センサの有無や視野・範囲の不一致など「異機種(ヘテロジニティ)」があると、同じ行動インターフェースでも事前学習済み共有ポリシーが大きく性能劣化し得る問題を示している。
  • DC-Adaは共有ポリシー本体は凍結したまま、各ロボットの観測を共通の推論インターフェースへ写像するコンパクトな観測変換のみを報酬のみで適応する分散手法である。
  • 学習は勾配不要(gradient-free)で、通信も最小化するために、予算付きのaccept/rejectランダム探索と、短い共通乱数ロールアウトをステップ予算の範囲内で用いる。
  • 決定的な2Dマルチロボットシミュレータで複数タスク(倉庫物流・捜索救助・協調地図作成)と複数のヘテロジニティ条件(H0〜H3)を評価し、ヘテロジニティによる劣化は大きく、かつ単一手法が全指標・全タスクで常に優位とは限らないと結論している。
  • 記述された結果では、倉庫物流では観測正規化が報酬頑健性に強く、捜索救助でも競争力があり、協調地図作成では凍結共有ポリシーが報酬面で強いなど、DC-Adaは特定の運用点(特に厳しいカバレッジ系の地図作成で完了率向上)を補完的に提供するとしている。

Abstract

Heterogeneity is a defining feature of deployed multi-robot teams: platforms often differ in sensing modalities, ranges, fields of view, and failure patterns. Controllers trained under nominal sensing can degrade sharply when deployed on robots with missing or mismatched sensors, even when the task and action interface are unchanged. We present DC-Ada, a reward-only decentralized adaptation method that keeps a pretrained shared policy frozen and instead adapts compact per-robot observation transforms to map heterogeneous sensing into a fixed inference interface. DC-Ada is gradient-free and communication-minimal: it uses budgeted accept/reject random search with short common-random-number rollouts under a strict step budget. We evaluate DC-Ada against four baselines in a deterministic 2D multi-robot simulator covering warehouse logistics, search and rescue, and collaborative mapping, across four heterogeneity regimes (H0--H3) and five seeds with a matched budget of 200{,}000 joint environment steps per run. Results show that heterogeneity can substantially degrade a frozen shared policy and that no single mitigation dominates across all tasks and metrics. Observation normalization is strongest for reward robustness in warehouse logistics and competitive in search and rescue, while the frozen shared policy is strongest for reward in collaborative mapping. DC-Ada offers a useful complementary operating point: it improves completion most clearly in severe coverage-based mapping while requiring only scalar team returns and no policy fine-tuning or persistent communication. These results position DC-Ada as a practical deploy-time adaptation method for heterogeneous teams.