RAPTOR:クアドロター制御のための基盤ポリシー

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • RAPTORは、単一のエンドツーエンド方策で多様なクアドロターを制御できる「適応型のfoundation policy」を学習する手法だと述べています。
  • 既存のRLベースのニューラル制御は特定環境に過適合しSim2Realギャップや機体変更で崩れやすい一方、RAPTORは計測・再学習なしのゼロショット適応を狙っています。
  • 10種類の実機(32g〜2.4kg、モータ/フレーム/プロペラ/飛行コントローラ構成が多様)で検証し、3層・合計2084パラメータという小型ポリシーでもゼロショット適応が可能だと報告されています。
  • アダプテーションは隠れ層のrecurrenceと、Meta-Imitation Learning(1000機ごとに教師をRLで学習→蒸留)によるin-context learningで実現する設計です。
  • 追従(trajectory tracking)や屋内外、風擾乱、機体への「poking」、プロペラ種の違いなど多条件で性能を広くテストしています。

要旨: 人間は、新しい車を運転するののような、未見の条件へ適応するときに、非常にデータ効率が高い。これに対して、強化学習(RL)を用いて訓練されたニューラルネットワーク・ポリシーのような現代のロボット制御システムは、単一の環境向けに高度に特化している。この過適合のため、シミュレーションから現実へのギャップ(Sim2Real)のような小さな違いでも破綻することが知られており、システムに対してわずかな変更があってもシステム同定と再訓練が必要となる。本研究では、クアッドロトル制御のための高適応な基盤(ファウンデーション)ポリシーを訓練する手法であるRAPTORを提示する。提案手法により、さまざまなクアッドロトルを制御するための単一のエンドツーエンドのニューラルネットワーク・ポリシーを訓練できる。32 gから2.4 kgまでの、モータ種(有刷子対無刷子)、フレーム種(柔軟対剛体)、プロペラ種(2/3/4ブレード)、フライトコントローラ(PX4/Betaflight/Crazyflie/M5StampFly)といった点でも異なる実機クアッドロトル10種類をテストする。その結果、パラメータ数わずか2084の、3層から成る小さなポリシーで、幅広いプラットフォームへのゼロショット適応が可能であることが分かる。隠れ層に再帰性を用いることで、文脈内学習による適応が可能になる。ポリシーは、提案するMeta-Imitation Learningアルゴリズムによって訓練する。具体的には、1000機のクアッドロトルをサンプリングし、それぞれについてRLを用いて教師ポリシーを訓練する。続いて、この1000の教師を1つの適応的な学生ポリシーへ蒸留する。ミリ秒以内に、得られた基盤ポリシーが、未見のクアッドロトルへゼロショットで適応することを見出す。基盤ポリシーの能力を、多数の条件下で徹底的に評価する(軌道追従、屋内/屋外、風擾乱、つつき動作、異なるプロペラ)。