少数ステップの視覚ナビゲーションのための整流化シュレディンガーブリッジ・マッチング

arXiv cs.RO / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、身体化された視覚ナビゲーションにおける重要なボトルネックを扱う。拡散/シュレディンガーブリッジに基づく生成ポリシーは、多くの積分ステップを要するため、リアルタイムのロボット制御への適用が難しい。
  • 整流化シュレディンガーブリッジ・マッチング(RSBM)を提案し、通常のシュレディンガーブリッジと決定論的な最適輸送を、単一のエントロピー正則化パラメータ ε で結び付ける。
  • 著者らは、条件付き速度場の関数形が ε の全範囲で不変であることを証明し、1つのネットワークで複数の正則化強度を扱えることを示す。
  • ε を線形に減少させることで速度分散が低下し、大きいステップ数での粗い ODE 積分において安定性が向上することを示す。
  • 実験では、RSBM が標準的なブリッジに比べて(≥10 ステップ)わずか 3 ステップで成功率 92%・コサイン類似度 94% を達成しており、蒸留やマルチステージ学習は用いない。

Abstract

視覚ナビゲーションは、身体化AI(Embodied AI)における中核的課題であり、自律エージェントが高次元の感覚観測を、連続的で長期(ロングホライズン)の行動軌道へと変換する必要があります。拡散モデルとシュレーディンガーブリッジ(Schr"odinger Bridges; SB)に基づく生成ポリシーは多峰性の行動分布を効果的に捉えますが、高分散の確率的トランスポートにより積分ステップが数十回必要となり、リアルタイムのロボット制御にとって重大な障壁になります。本研究では、Rectified Schr"odinger Bridge Matching(RSBM)という枠組みを提案します。これは、標準的なシュレーディンガーブリッジ(varepsilon=1, 最大エントロピー・トランスポート)と決定論的な最適輸送(varepsilon o 0、Conditional Flow Matching のように)の間で共有される速度場(velocity-field)の構造を活用し、単一のエントロピー正則化パラメータ varepsilon によって制御します。主要な結果を2つ証明します:(1)条件付き速度場の関数形は、varepsilon 全スペクトルにわたって不変であること(Velocity Structure Invariance)。これにより、単一のネットワークであらゆる正則化強度に対応できます;(2)varepsilon を線形に小さくすると条件付き速度の分散が減少し、より安定した粗いステップのODE積分が可能になることです。トランスポート距離を短縮する学習済みの条件付き優先分布(conditional prior)に基づき、RSBMは多峰性のカバレッジと経路の直線性を両立させる中間的な varepsilon で動作します。実験的に、標準的なブリッジでは収束に geq 10 ステップが必要であるのに対し、RSBMは蒸留(distillation)や多段階の学習なしで、わずか3つの積分ステップだけで94%以上のコサイン類似度と92%の成功率を達成します。これは、高忠実度な生成ポリシーと、身体化AIが求める低レイテンシ要求とのギャップを大幅に縮めるものです。

少数ステップの視覚ナビゲーションのための整流化シュレディンガーブリッジ・マッチング | AI Navigate