MPCスーパービジョン付きニューラル「後方到達・回避チューブ」：高次元システムへの適用と安全な宇宙船ドッキング

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、衝突回避と目標到達性を同時に満たす到達・回避（reach-avoid）の保証を、高次元の並進・回転連成ダイナミクス下で実現する自律宇宙船ドッキング制御を扱っています。
従来の低次元に限られるハミルトン・ヤコビ（HJ）到達可能性のソルバの限界と、ドッキングのように目標集合と失敗集合が密に結び付く状況でのPDEのみの学習手法の弱さを克服するため、学習ベースのBackward Reach-Avoid Tube（BRAT）フレームワークを提案します。
オフライン学習では、HJ値関数のニューラル近似を、PDEベースの損失に加えてカリキュラム駆動のMPCスーパービジョンで強化し、安定した学習と有益な値目標を得るよう設計しています。
オンライン実装では学習済みの値関数を2つのリアルタイム制御器で利用し、(i) 値の勾配に基づく制御と、(ii) 地平線（ホライゾン）上で到達可能性を明示的に強制する終端MPCを用います。
6次元の平面ドッキング問題での評価とフル13次元システムへのスケールアップの両方で、本手法は成功率と計算効率の面で既存手法より優れていることを示しています。

要旨: 自律宇宙機のドッキングには、結合された高次元の並進・回転ダイナミクスの下で、同時に衝突回避と目標到達可能性を保証する制御方策が必要である。ハミルトン＝ヤコビ（HJ）到達可能性は、到達回避（reach-avoid）に関する形式的保証を与えるが、従来のソルバは低次元システムに限られている。学習ベースのアプローチはHJ解析のスケールを始めているものの、到達回避の状況、特にドッキングのように目標集合と失敗集合が密に結合している場合に苦戦する。そこで本研究では、この課題に対処する学習ベースのBackward Reach-Avoid Tube（BRAT）フレームワークを提案する。HJの構造をMPCベースの監督と密に統合することで、挑戦的な状況でも適切に対処できる。オフライン段階では、カリキュラム駆動のMPC監督をPDEベース損失に付加して用い、HJ価値関数のニューラル近似を学習する。これにより、有益な価値目標が得られ、純粋なPDEベース手法が失敗しやすい領域において学習が安定化する。オンライン段階では、学習済みの価値関数を2つのリアルタイム制御器を通じて運用する：（i）価値勾配駆動型の制御器、（ii）価値関数を拡張した終端MPCであり、地平線（ホライズン）において到達可能性を明示的に強制する。提案手法を、6D平面ドッキング問題に対して格子ベースの正解データで評価し、その後全13Dシステムへ拡張する。両設定において、本手法は成功率および計算効率の両面で既存手法を上回る。