統合型生成・リファインメント計画:ガイド付きフローマッチングとサンプリングベースMPCを社会的ナビゲーションで橋渡しする

arXiv cs.RO / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全性とリアルタイム制約の下で、学習ベースの軌道生成器と最適化ベースのコントローラを統合することで、人間中心の動的環境におけるロボットの堅牢な計画を扱う。
  • 報酬に導かれた条件付きフローマッチング(CFM)が、モデル予測経路積分(MPPI)のリファインメント用に多様な軌道事前分布を生成し、その結果得られたMPPI計画が、その後のCFM生成をウォームスタートするという双方向ループを提案する。
  • 主な応用として自律的なソーシャルナビゲーションを用い、安全性、タスク性能、計算時間のトレードオフを改善しつつ、リアルタイムでの適応性を維持したことを報告している。
  • 本研究は、最適化プランナにありがちな弱点(動的環境における初期化への感度)と、学習ベースプランナにありがちな弱点(制約充足の信頼性の低さ)を緩和するためのアプローチとして位置づけられている。

Abstract

動的で人中心の環境における頑健なロボット計画は、多峰性の不確実性、リアルタイム適応の必要性、安全要件により、依然として困難です。最適化ベースの計画手法は制約を明示的に扱えますが、初期化に敏感であり、動的な状況では苦戦することがあります。学習ベースの計画手法は多峰性の解空間をより自然に捉えられますが、しばしば信頼できる制約充足を欠きます。本論文では、報酬に導かれた条件付きフロー・マッチング(CFM)とモデル予測経路積分(MPPI)制御を組み合わせた、統一的な生成・洗練フレームワークを提案します。我々の主要な着想は、生成と最適化の間で双方向の情報交換を行うことです。すなわち、報酬に導かれたCFMは、MPPIの洗練のための多様で洞察に富んだ軌道事前分布を生成します。一方で、最適化されたMPPIの軌道が、次のCFM生成ステップのウォームスタートとなります。動機付けのための応用として、自律的なソーシャルナビゲーションを用い、提案手法が、安全性、タスク性能、計算時間の間のトレードオフを改善しつつ、動的環境へリアルタイムに適応できることを示します。ソースコードは https://cfm-mppi.github.io で公開されています。