概要: 拡散ベースの軌道最適化は強力な計画パラダイムとして登場してきましたが、既存手法は、大規模データセットで学習したスコアネットワーク、あるいはスコア計算のための解析的な動力学モデルのいずれかを必要とします。私たちは、
\emph{Behavioral Score Diffusion}(BSD)を提案します。BSDは学習を要さず、モデルを必要としない軌道プランナーであり、カーネル重み付き推定により、軌道データのライブラリから拡散スコア関数を直接計算します。各除去(デノイズ)ステップにおいて、BSDは3重カーネル重み付け方式――拡散の近さ(proximity)、状態の文脈(context)、目標への関連性(relevance)――を用いて関連する軌道を取得し、デノイズ後の軌道のナダラヤ=ワトソン推定を計算します。拡散ノイズのスケジュールはカーネルの帯域幅を自然に制御し、マルチスケールのノンパラメトリック回帰を実現します。高ノイズでは大域的な行動パターンの広い平均化を行い、低ノイズでは細かな局所補間を行います。この粗いから細かいへ(coarse-to-fine)の構造により、線形化やパラメトリックな仮定なしで非線形ダイナミクスを扱えます。安全性は、カーネル推定された状態軌道に対してシールド付きロールアウトを適用することで維持されます。これは既存のモデルベース手法と同一です。私たちは、駐車シナリオにおいて、複雑性が増す4つのロボットシステム(3D--6Dの状態空間)でBSDを評価します。固定帯域幅のBSDは、動力学モデルを不要とし、1{,}000個の事前収集軌道のみを用いて、システム間でのモデルベース基準の平均報酬の98.5
%を達成します。さらにBSDは最近傍探索(18--63
%の改善)を大きく上回り、拡散デノージング機構がデータ駆動型計画を効果的に行うために不可欠であることを確認します。
Behavioral Score Diffusion:データからのカーネルベースのスコア推定による、モデルフリーの軌道計画
arXiv cs.RO / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、収集済みの軌道データセットから拡散スコアを直接推定することで、学習不要かつモデルフリーな拡散ベースの軌道プランナである Behavioral Score Diffusion(BSD)を提案する。
- BSD は、拡散の近接性、状態コンテキスト、目標の妥当性の 3 要因にもとづくマルチスケールのカーネル重み付き軌道検索を行い、各デノイズ(復元)ステップでナダライヤ=ワトソン推定を適用して、デノイズされた軌道を生成する。
- 拡散ノイズスケジュールを用いてカーネルの帯域幅を制御し、力学モデルの線形化やパラメトリックな仮定を行わずに、グローバルからローカルへと至る非線形ダイナミクスを捉える粗解像度から細解像度への回帰挙動を実現する。
- 安全性は、カーネル推定された状態軌道に対してシールド付きロールアウトを用いることで維持し、既存のモデルベースの安全機構と整合するアプローチを採用する。
- 3D から 6D の状態空間にまたがる 4 つのロボット駐車タスクにおいて、帯域幅を固定した BSD は、わずか 1,000 軌道のみでモデルベースのベースライン平均報酬の約 98.5% に到達し、最近傍(nearest-neighbor)検索よりも大幅に改善することから、拡散デノイジングの重要性が示される。


