GCImOpt:最適な軌道を模倣して、効率的な目標条件付きポリシーを学習する
arXiv cs.RO / 2026/4/27
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- GCImOptは、軌道最適化により生成した高品質データセットを用いて模倣学習を行い、コストのかかる、または課題解決に不十分なデモに依存せずに効率的な目標条件付き制御ポリシーを学習する手法を提案しています。
- データセット生成は計算効率が高く、ノートPC上で数分以内に数千本の最適軌道を生成でき、さらに中間状態を追加の目標として扱うデータ拡張によりデータセット規模を1桁拡大できます。
- 生成したデータセットを使って学習することで、複数の制御タスクにおいて任意の目標へ向けてシステムを制御できる目標条件付きニューラルネットワークポリシーを実現します。
- 実験では、倒立振子、2D/3Dクアドコプタ姿勢安定化、6自由度ロボットアームによる点到達に対して、高い成功率と準最適な制御挙動が示され、モデルは小型(8万パラメータ未満)で、軌道最適化ソルバより最大で数千倍以上高速に動作します。
- 著者らは、動画・コード・データセット・学習済みポリシーを無料ソフトウェアライセンスで公開しており、再現性やリソース制約のあるコントローラへの搭載を後押しします。



