不規則な六角グリッド上での海上カバレッジ経路計画のための、批評家（クリティック）なし深層強化学習

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、海岸線、島嶼部、立入禁止区域といった不規則領域を六角グリッド表現で扱い、海上カバレッジ経路計画（CPP）に対する深層強化学習フレームワークを提案する。
CPPを、Transformerベースのポインタ・ポリシーが被覆巡回路（カバレッジツアー）を自己回帰的に構築するニューラル・組合せ最適化問題として再定式化する。
著者らは、価値関数なしで長いホライズンのルーティングを安定化させるために、サンプルした軌跡同士を同一インスタンス内で比較して優位度（アドバンテージ）を計算する、批評家（クリティック）なしのGroup-Relative Policy Optimization（GRPO）を提案する。
未知の合成海上環境1,000件での実験では、ハミルトン成功率99.0%を報告し、最良のヒューリスティック（46.0%）を上回った。さらに、経路長が短く、基準手法に比べて針路変更回数が少ない。
本手法は、推論モードを複数（貪欲、確率的、2-optによる改良を伴うサンプリング）に対応しており、ノートPCのGPU上で1インスタンスあたり50 ms未満の実行時間が報告されていることから、搭載オンボードでのリアルタイム実行可能性が示唆される。

Abstract

捜索救助や環境モニタリングといった海上監視ミッションでは、広大で幾何学的に複雑な領域に対してセンサ資産を効率的に配分することが重要になります。従来のカバレッジ経路計画（CPP）のアプローチは、入り組んだ海岸線、島、除外区域に対してうまく機能しない分解技術に依存しているか、あるいは各インスタンスごとに計算コストの高い再計画を必要とします。本研究では、不規則な海上領域を表す六角格子（ヘキサゴナルグリッド）上でCPPを解くための深層強化学習（DRL）フレームワークを提案します。従来手法とは異なり、本問題をニューラルな組合せ最適化タスクとして定式化し、Transformerベースのポインタ方策が自己回帰的にカバレッジ巡回路を構築します。長いホライズンを持つ経路計画問題における価値推定の不安定性を克服するために、批評家（critic）なしのGroup-Relative Policy Optimization（GRPO）方式を実装します。この手法では、価値関数に依存するのではなく、サンプリングした軌跡同士のインスタンス内比較によって利点（advantage）を推定します。1,000の未見の合成海上環境に対する実験では、学習済み方策が99.0%のハミルトニアン成功率を達成し、最良のヒューリスティック（46.0%）を2倍以上上回りました。また、最も近いベースラインと比べて経路長は7%短く、進行方向（ヘディング）の変更回数は24%少ないことが確認されました。3つの推論モード（貪欲、確率的サンプリング、2-optによる改良付きサンプリング）はいずれも、ノートPCのGPU上で1インスタンスあたり50ms未満で動作し、オンボードのリアルタイム実装の実現可能性が裏付けられます。