不規則な六角グリッド上での海上カバレッジ経路計画のための、批評家(クリティック)なし深層強化学習
arXiv cs.RO / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、海岸線、島嶼部、立入禁止区域といった不規則領域を六角グリッド表現で扱い、海上カバレッジ経路計画(CPP)に対する深層強化学習フレームワークを提案する。
- CPPを、Transformerベースのポインタ・ポリシーが被覆巡回路(カバレッジツアー)を自己回帰的に構築するニューラル・組合せ最適化問題として再定式化する。
- 著者らは、価値関数なしで長いホライズンのルーティングを安定化させるために、サンプルした軌跡同士を同一インスタンス内で比較して優位度(アドバンテージ)を計算する、批評家(クリティック)なしのGroup-Relative Policy Optimization(GRPO)を提案する。
- 未知の合成海上環境1,000件での実験では、ハミルトン成功率99.0%を報告し、最良のヒューリスティック(46.0%)を上回った。さらに、経路長が短く、基準手法に比べて針路変更回数が少ない。
- 本手法は、推論モードを複数(貪欲、確率的、2-optによる改良を伴うサンプリング)に対応しており、ノートPCのGPU上で1インスタンスあたり50 ms未満の実行時間が報告されていることから、搭載オンボードでのリアルタイム実行可能性が示唆される。




