要旨: この記事では、クアドロトールの頑健な安定化のためにエンドツーエンド強化学習(RL)方策を訓練する、新しいサンプル効率の高いカリキュラム学習(CL)アプローチを紹介する。学習の目的は、モータRPMを直接制御(エンドツーエンド)することで、ランダムな初期条件から位置とヨー方位を同時に安定化しつつ、事前に指定された過渡状態および定常状態の仕様に従うことである。この目的は空中検査用途に関連しており、従来のワンステージのエンドツーエンドRLでは、膨大な計算資源と長い訓練時間が必要となるため困難である。そこで本記事では、この課題に対処するために、人間に着想を得たカリキュラム学習から着想を得て、学習目的を3段階のカリキュラムに分解し、各段階でタスクの複雑さを段階的に増やしながら、ある段階から次の段階へ知識を移す。提案するカリキュラムでは、方策は、独自の報酬関数とエピソード打ち切り条件を用いて、まずホバリングを学び、次に並進自由度と回転自由度の結合を学び、さらにゼロでないランダムな初期速度に対する頑健性を順に学習する。結果は、同一の報酬関数とハイパーパラメータを用いて従来のワンステージで訓練した方策と比較して、提案するCLアプローチが優れた性能を達成し、計算資源(サンプル)と収束時間を大幅に削減できることを示している。CLで訓練した方策の性能と頑健性は、シミュレーションエンジン(Gym-PyBullet-Drones)において、ランダムな初期条件の下で、ならびに検査のポーズ追跡シナリオにおいて、徹底的に検証されている。結果を示すビデオは https://youtu.be/9wv6T4eezAU で公開している。
クアッドロトルのロバストな安定化のためのカリキュラムに基づく、サンプル効率の高い強化学習
arXiv cs.RO / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、モータRPMを直接制御するエンドツーエンド強化学習ポリシーを訓練するための、サンプル効率の高いカリキュラム学習(CL)手法を提案する。これは、ロバストなクアッドロトル安定化を目的とする。
- ランダムな初期条件から同時に位置およびヨー(方位)を安定化させつつ、あらかじめ定めた過渡および定常の性能仕様を満たすことを目標とする。
- 従来のワンステージのエンドツーエンドRLは訓練が遅く計算負荷も高いことを克服するため、著者らは、3段階のカリキュラム(ホバリング、並進と回転の結合、ゼロでないランダム初期速度に対するロバスト性)にタスクを分解し、段階間で知識転移を行う。
- 訓練では独自の報酬関数とエピソード打ち切り条件を用い、CLで学習したポリシーは、同一の報酬・ハイパーパラメータ設定のもとでのワンステージ学習と比べて性能とロバスト性が向上していることを示す。
- 検証はシミュレーション(Gym-PyBullet-Drones)と、検査用の姿勢追跡シナリオで実施され、サンプル/計算の必要量の削減や収束の高速化を示し、その結果は付随する動画によって裏付けられている。




