Abstract
視覚ナビゲーションは、身体化AI(Embodied AI)における中核的課題であり、自律エージェントが高次元の感覚観測を、連続的で長期(ロングホライズン)の行動軌道へと変換する必要があります。拡散モデルとシュレーディンガーブリッジ(Schr"odinger Bridges; SB)に基づく生成ポリシーは多峰性の行動分布を効果的に捉えますが、高分散の確率的トランスポートにより積分ステップが数十回必要となり、リアルタイムのロボット制御にとって重大な障壁になります。本研究では、Rectified Schr"odinger Bridge Matching(RSBM)という枠組みを提案します。これは、標準的なシュレーディンガーブリッジ(varepsilon=1, 最大エントロピー・トランスポート)と決定論的な最適輸送(varepsilon o 0、Conditional Flow Matching のように)の間で共有される速度場(velocity-field)の構造を活用し、単一のエントロピー正則化パラメータ varepsilon によって制御します。主要な結果を2つ証明します:(1)条件付き速度場の関数形は、varepsilon 全スペクトルにわたって不変であること(Velocity Structure Invariance)。これにより、単一のネットワークであらゆる正則化強度に対応できます;(2)varepsilon を線形に小さくすると条件付き速度の分散が減少し、より安定した粗いステップのODE積分が可能になることです。トランスポート距離を短縮する学習済みの条件付き優先分布(conditional prior)に基づき、RSBMは多峰性のカバレッジと経路の直線性を両立させる中間的な varepsilon で動作します。実験的に、標準的なブリッジでは収束に geq 10 ステップが必要であるのに対し、RSBMは蒸留(distillation)や多段階の学習なしで、わずか3つの積分ステップだけで94%以上のコサイン類似度と92%の成功率を達成します。これは、高忠実度な生成ポリシーと、身体化AIが求める低レイテンシ要求とのギャップを大幅に縮めるものです。