専門化を超えて:手続き的マップ生成による頑健な強化学習ナビゲーション

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本研究は、深層強化学習(DRL)ナビゲーションが手作業で設計された訓練環境の限られた構造に過適合しやすいという課題に対し、到達可能性(ナビゲート可能性)が保証された手続き的マップ生成を用いて解決を試みる。
  • 著者らはMuRoSimを構築し、4種類の手続き的マップ生成器(スパース、迷路、グラフ、Wave Function Collapse)を統合したうえで、多数のシードマップに対して5つのナビゲーション方策をクロスジェネレータ転移として体系的に評価した。
  • クロスジェネレータ転移は大きく非対称で、スパース配置に特化して学習した方策は迷路で成功率3.3%まで低下する一方、複数ジェネレータを組み合わせて学習した方策は平均成功率約91.5%と高い汎化を示した。
  • 頑健性への寄与が最も大きかったのはA*経路計画器のサブゴール入力であり、フィードフォワード基線(約90.2%)から約98.9%へと成功率が改善し、GRUのリカレンスは反応型性能の範囲でしか十分に伸びなかった。
  • 古典的なCarrot+A*制御との比較やRoboMasterでの実機実験でも、学習型DRLは明確な優位性を示し、とりわけ高速度域で古典制御が大きく崩れる場面での速度適応が決定的な強みとして浮かび上がった。

要旨: 深層強化学習(DRL)のナビゲーション方策は、訓練環境の構造に過適合しがちです。というのも、環境の多様性は、異なるシナリオを多様に設計するために必要な人手の労力によって通常は制約されるからです。手続き的な地図生成はスケーラブルな多様性を提供しますが、異なる生成器の種類が方策の汎化にどのように影響するかを体系的に比較した先行研究はありません。私たちは、(到達可能性が保証されている)4つの生成器(疎な配置、迷路、グラフ、ウェーブ・ファンクション・コラプス)を、LiDARベースのナビゲーションに対する訓練効率に焦点を当てた2Dシミュレータ MuRoSim に統合します。3つの訓練シードにわたり、各生成器につき1000個のシード地図で5つのナビゲーション方策を相互評価します。その結果、生成器間の転移に強い非対称性が見られます。疎なレイアウトで訓練した専門家は迷路で成功率が3.3%まで低下するのに対し、結合された生成器セットで訓練した方策は平均成功率が91.5 +/- 1.1%に達します。さらに、A* 経路計画器の部分目標入力が頑健性の支配的な要因であることを示します。これにより成功率は、フィードフォワード基準(90.2 +/- 1.4%)から 98.9 +/- 0.4% へと引き上げられ、GRUの再帰を上回ります。GRUの再帰はリアクティブ基準を改善するだけで、決定的な頑健性の向上にはつながりません。DRL方策は、古典的な Carrot+A* コントローラよりも優れます。Carrot+A* は低速(1.0 m/s)では方策と同等の成功率を示しますが、2.0 m/sでは 24.9% に崩れ落ちます。これは、学習アプローチにおける速度適応が決定的な利点であることを示しています。RoboMasterでの実環境実験は、散乱環境でのシミュレーション・ツー・リアルの転移を確認すると同時に、迷路のようなレイアウトが残存する失敗モードを露呈すること、そして再帰がそれらを緩和するのに役立つことを明らかにします。

専門化を超えて:手続き的マップ生成による頑健な強化学習ナビゲーション | AI Navigate