概要: 自律ドローンレースは、学習、知覚、計画、制御の限界を検証するための挑戦的なロボティクスのベンチマークとして注目が高まっています。熟練した人間のパイロットは、単一カメラから得たピクセルを直接制御コマンドへ対応付けることで、レーストラックをドローンで飛行できます。自律ドローンレースにおいて、直接ピクセルからコマンドへの制御方策を試みる最近の研究では、観測空間を単純化する中間表現に依存するか、あるいは模倣学習(IL)を用いた大規模なブートストラップを行うことに頼ってきました。本論文では、DreamerV3を活用し、観測としてピクセルのみを用いて、レーストラックを機敏に飛行できる視覚運動方策を訓練します。PPOやSACのようなモデルフリー手法とは対照的に、これらはサンプル効率が悪く、この設定では苦戦します。本アプローチは、ピクセルからドローンレースの技能を獲得します。特筆すべき点として、視線方向を与えるための手作りの報酬項を必要としないにもかかわらず、質感(テクスチャ)が豊富なゲート領域へ能動的にカメラを向ける、知覚を考慮した行動が自然に現れます。我々の実験は、レンダリングされた画像観測を用いたハードウェア・イン・ザ・ループ構成によって、シミュレーションと実環境の両方で、提案手法が最大9 m/sの速度で実際のクアッドロータに適用できることを示しています。これらの結果は、ピクセルベースの自律飛行の最先端を前進させ、MBRLが現実世界のロボティクス研究にとって有望な道であることを示しています。
飛翔の夢:視覚ベース・ドローン飛行のためのモデルベース強化学習
arXiv cs.RO / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、視覚のみの自律ドローンレースに向けたモデルベース強化学習(MBRL)手法を提案し、単一カメラのピクセルを直接制御コマンドへ対応付けることで、機敏なゲート通過を可能にする。
- DreamerV3を活用することで、PPOやSACのようなモデルフリー強化学習で見られるサンプル非効率性を低減し、重い模倣学習のブートストラップや手作業による報酬設計に依存しないことを目指す。
- 実験により、知覚を考慮した行動が自然に創発することが示される。すなわち、視線方向に対する明示的な報酬項を設けなくても、ドローンがテクスチャの豊かなゲート領域へカメラを能動的に向ける。
- 本手法は、レンダリングした画像観測を用いたシミュレーションと、実環境でのハードウェア・イン・ザ・ループ飛行の両方で検証されており、実際のクアッドロータで最大約9 m/sの速度で動作することが報告されている。
- 全体として、本研究はピクセルベースの自律飛行を前進させ、知覚駆動型かつ制約のあるタスクにおいて、MBRLが実世界のロボティック学習性能を向上させる有望な道筋であることを論じている。

