最適化としての生成制御:適応的で頑健なロボット制御のための時間非依存フローマッチング

arXiv cs.RO / 2026/4/28

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、ロボットの模倣学習における拡散モデル/フローマッチング手法が、推論で固定の積分スケジュールを用い、現在の状態の複雑さを考慮できないため構造的に非効率だと指摘しています。
  • その解決として、Generative Control as Optimization(GeCO)を提案し、軌道の積分を反復最適化へ置き換えることで、行動シーケンス空間に定常の速度場を学習し、専門家の挙動を安定なアトラクタとして形成させます。
  • 試験時には収束度合いに応じて計算量を適応配分し、簡単な状態では早期に終了して、難しい状態ではより長く精緻化します。
  • さらに、定常の幾何構造により学習不要の安全性シグナルが得られ、最適化された行動における速度場ノルムをOOD検出として用いることで、分布内では低く保たれ異常では大きく上昇します。
  • 著者らはシミュレーションのベンチマークでGeCOを検証し、pi0系のVision-Language-Action(VLA)モデルにもシームレスにスケールできることを示しており、標準のフローマッチングヘッドの「プラグアンドプレイ」代替として、成功率と効率を改善しつつ安全なデプロイのための最適化ネイティブな仕組みを提供すると位置付けています。