ソーベル学習された拡散ポリシーによる軌道最適化の加速

arXiv cs.LG / 2026/4/22

📰 ニュースModels & Research

要点

  • この論文は、軌道最適化(TO)を、各問題インスタンスを独立に反復解法で解く代わりに、拡散ベースの学習ポリシーが生成する初期推定で勾配ベースTOソルバをウォームスタートすることで効率化する提案を行います。
  • 重要な課題として、TOデモは局所的に最適であるため、ポリシーをロールアウトすると小さな非最適なズレが訓練データにない状況へ押し出し、長いホライズンで誤差が累積(compounding)する問題に焦点を当てています。
  • 著者らは、ソーベル学習により拡散ポリシーを、軌道だけでなくフィードバックゲインも用いて学習する枠組みを示し、この設定に合わせた一階(first-order)の損失関数を導出しています。
  • 実験では、得られたポリシーが誤差の累積を回避でき、非常に少ない軌道から学習して、TOの解法時間を2倍〜20倍削減できることが示されています。
  • 一階情報を取り入れることで、正確な予測に必要な拡散ステップ数が減り、推論レイテンシを低減できると述べています。

要旨: 軌道最適化(TO)ソルバは、既知のシステムダイナミクスを活用して、反復的な改善によって局所的に最適な軌道を計算します。欠点として、各新しい問題インスタンスは独立に解かれるため、得られる解の収束速度と品質は、提案される初期軌道に依存します。効率を高める自然な方法は、ソルバによって以前に生成された軌道で学習した学習ポリシーが出力する初期予測を用いて、TOをウォームスタートすることです。拡散ベースのポリシーは、近年、有力な模倣学習モデルとして登場しており、この役割に適した有望な候補です。しかし、TOのデモンストレーションにおける局所最適性という、一見すると直感に反する課題があります。すなわち、ポリシーをロールアウトすると、小さな非最適なずれによって、学習データに含まれていない状況へ押し出されてしまう可能性があり、その結果、長いホライズンにわたって誤差が累積してしまいます。本研究では、フィードバックゲインも提供する勾配ベースTOソルバに対する、学習に基づくウォームスタートを扱います。この特定性を活かして、軌道とフィードバックゲインの両方を用いた拡散ベースポリシーのSobolev学習に対する一次(first-order)の損失を導出します。包括的な実験により、その結果得られるポリシーが誤差の累積を回避できることを示し、さらに非常に少数の軌道から学習することで、解くための時間を2 imesから20 imesへと削減する初期予測を提供できることを示します。一次情報を取り入れることで、拡散ステップ数を少なくして予測できるため、推論のレイテンシが低減します。