広告

モデル予測経路積分制御におけるサンプリング分布のStein基盤最適化

arXiv cs.RO / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、より良い軌道へ向けて作用(アクション)のサンプリング分布を最適化するために、Stein変分勾配降下(SVGD)を用いるMPPI制御手法SOPPIを提案する。
  • 一般的なMPPI実装では、単峰性(通常はガウス分布)の作用分布を仮定しているため、サンプル不足によるロールアウト予測の悪化や、コスト勾配のノイズに対する感度の高さといった問題が生じうる点に対処する。
  • SOPPIは、MPPIの環境ステップ間においてSVGDの更新を適用し、追加計算を限りつつ、実行時にノイズ分布を動的に調整する。
  • 著者らは、平面のカート・ポール、7自由度のロボットアーム、平面二足歩行ロボットに対して検証を行い、最先端のMPPI手法よりも性能が向上することを示す。
  • 結果は、SOPPIが幅広いハイパーパラメータの範囲で、より少ない粒子数により、同等以上の制御性能を達成できることを示唆しており、実用的な効率が向上する。

Abstract

本論文では、Stein Variational Gradient Descent(SVGD)により最適な軌道へ向けてサンプル生成を最適化する、Model Predictive Path Integral(MPPI)制御手法を提案する。MPPIは、取り得る行動の分布からサンプリングした軌道について予測ロールアウトを行うことに依存している。従来、この行動分布は一峰性であり、ガウス分布として表されることが仮定されてきた。その結果、サンプル不足によりロールアウト予測が劣化する可能性があり、また微分可能なシミュレーションの場合には、コスト勾配に含まれるノイズへの感度が原因で問題が生じ得る。MPPIの環境ステップ間にSVGD更新を導入することで、本論文では、過度な計算要求を伴わずに行動サンプリング分布をより適切に捉えるため、実行時にノイズ分布を動的に更新できるMPPI/SVGDアルゴリズムであるStein-Optimized Path-Integral Inference(SOPPI)を提示する。平面カートポール、7自由度ロボットアーム、平面二足歩行ロボットに関する実験により、SOPPIの有効性を示す。これらの結果は、多様なハイパーパラメータにおいて最先端のMPPIアルゴリズムと比べてシステム性能が改善されること、ならびにより少ない粒子数でも実現可能であることを示している。

広告