GCImOpt:最適な軌道を模倣して、効率的な目標条件付きポリシーを学習する

arXiv cs.RO / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • GCImOptは、軌道最適化により生成した高品質データセットを用いて模倣学習を行い、コストのかかる、または課題解決に不十分なデモに依存せずに効率的な目標条件付き制御ポリシーを学習する手法を提案しています。
  • データセット生成は計算効率が高く、ノートPC上で数分以内に数千本の最適軌道を生成でき、さらに中間状態を追加の目標として扱うデータ拡張によりデータセット規模を1桁拡大できます。
  • 生成したデータセットを使って学習することで、複数の制御タスクにおいて任意の目標へ向けてシステムを制御できる目標条件付きニューラルネットワークポリシーを実現します。
  • 実験では、倒立振子、2D/3Dクアドコプタ姿勢安定化、6自由度ロボットアームによる点到達に対して、高い成功率と準最適な制御挙動が示され、モデルは小型(8万パラメータ未満)で、軌道最適化ソルバより最大で数千倍以上高速に動作します。
  • 著者らは、動画・コード・データセット・学習済みポリシーを無料ソフトウェアライセンスで公開しており、再現性やリソース制約のあるコントローラへの搭載を後押しします。

Abstract

模倣学習は、機械学習ベースの制御に対する確立されたアプローチです。しかし、その適用可能性は、デモンストレーションにアクセスできるかどうかに依存しますが、デモンストレーションはしばしば収集が高コストである、または課題を解く上で必ずしも最適ではないという問題があります。本研究では、軌道最適化によって生成されたデータセットで学習することで、効率的な目標条件付き方策を学習するアプローチGCImOptを提案します。我々のデータセット生成手法は計算効率が高く、ノートPC上で数分以内に数千本の最適軌道を生成でき、高品質なデモンストレーションを得られます。さらに、中間状態をゴールとして扱うデータ拡張スキームにより、学習用データセットのサイズを1桁増やすことができます。我々が生成したデータセットを用いて、任意の目標に向けてシステムを制御できる目標条件付きニューラルネットワーク方策を学習します。提案手法の汎用性を示すために、データセットを生成し、その後、さまざまな制御タスクに対する方策を学習します。具体的には、cart-pole(倒立振子)の安定化、平面および3次元のクアッドコプタの安定化、そして6-DoFロボットアームによる到達(ポイント到達)です。学習した方策は、高い成功率と、ほぼ最適な制御プロファイルを達成できることを示します。その一方で、方策は小さく(ニューラルネットワークのパラメータ数が8万未満)、かつ十分に高速です(軌道最適化ソルバに対して最大で6,000倍以上高速)ため、計算資源が限られたコントローラに搭載して運用できる可能性があります。動画、コード、データセット、事前学習済み方策を、フリーソフトウェアライセンスのもとで提供します。プロジェクトWebサイト https://jongoiko.github.io/gcimopt/ をご覧ください。