ソーベル学習された拡散ポリシーによる軌道最適化の加速

arXiv cs.LG / 2026/4/22

📰 ニュースModels & Research

共有:

要点

この論文は、軌道最適化（TO）を、各問題インスタンスを独立に反復解法で解く代わりに、拡散ベースの学習ポリシーが生成する初期推定で勾配ベースTOソルバをウォームスタートすることで効率化する提案を行います。
重要な課題として、TOデモは局所的に最適であるため、ポリシーをロールアウトすると小さな非最適なズレが訓練データにない状況へ押し出し、長いホライズンで誤差が累積（compounding）する問題に焦点を当てています。
著者らは、ソーベル学習により拡散ポリシーを、軌道だけでなくフィードバックゲインも用いて学習する枠組みを示し、この設定に合わせた一階（first-order）の損失関数を導出しています。
実験では、得られたポリシーが誤差の累積を回避でき、非常に少ない軌道から学習して、TOの解法時間を2倍〜20倍削減できることが示されています。
一階情報を取り入れることで、正確な予測に必要な拡散ステップ数が減り、推論レイテンシを低減できると述べています。

要旨: 軌道最適化（TO）ソルバは、既知のシステムダイナミクスを活用して、反復的な改善によって局所的に最適な軌道を計算します。欠点として、各新しい問題インスタンスは独立に解かれるため、得られる解の収束速度と品質は、提案される初期軌道に依存します。効率を高める自然な方法は、ソルバによって以前に生成された軌道で学習した学習ポリシーが出力する初期予測を用いて、TOをウォームスタートすることです。拡散ベースのポリシーは、近年、有力な模倣学習モデルとして登場しており、この役割に適した有望な候補です。しかし、TOのデモンストレーションにおける局所最適性という、一見すると直感に反する課題があります。すなわち、ポリシーをロールアウトすると、小さな非最適なずれによって、学習データに含まれていない状況へ押し出されてしまう可能性があり、その結果、長いホライズンにわたって誤差が累積してしまいます。本研究では、フィードバックゲインも提供する勾配ベースTOソルバに対する、学習に基づくウォームスタートを扱います。この特定性を活かして、軌道とフィードバックゲインの両方を用いた拡散ベースポリシーのSobolev学習に対する一次（first-order）の損失を導出します。包括的な実験により、その結果得られるポリシーが誤差の累積を回避できることを示し、さらに非常に少数の軌道から学習することで、解くための時間を $2 imes$ から $20 imes$ へと削減する初期予測を提供できることを示します。一次情報を取り入れることで、拡散ステップ数を少なくして予測できるため、推論のレイテンシが低減します。

#2 : プロンプト研究講座【第22回】AI画像の連続性・一貫性の維持

note

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

OpenAI「Privacy Filter」、ローカル実行可能なPII検出モデルを公開

Innovatopia

人類の統制とチェック＆バランスを備えたAGIガバナンス「Gabriel Model」の構想

Reddit r/artificial

DeepSeek V4 Flash と Non-Flash が Hugging Face に登場

Reddit r/LocalLLaMA

ソーベル学習された拡散ポリシーによる軌道最適化の加速

要点

関連記事

#2 : プロンプト研究講座【第22回】AI画像の連続性・一貫性の維持

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

OpenAI「Privacy Filter」、ローカル実行可能なPII検出モデルを公開

人類の統制とチェック＆バランスを備えたAGIガバナンス「Gabriel Model」の構想

DeepSeek V4 Flash と Non-Flash が Hugging Face に登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer