センサーモータ・ポリシーによる精密かつ攻撃的な航空機動

arXiv cs.RO / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、全SE(3)の姿勢/ポーズ制約の下で、狭い開口部を通り抜けるためにクアドロトールが精密かつ攻撃的な機動を行うという課題を扱う。ドローンは、傾けた姿勢や機体の非対称性を活用して、隙間のような狭さを通過する必要がある。
  • ギャップの位置や向きに関する事前知識なしで通過を可能にするため、オンボードの視覚と自己受容(プロプリオセプション)を低レベルの制御指令へ直接写像するセンサーモータ・ポリシーを提案する。
  • 学習は強化学習をシミュレーション上で実施し、エンドツーエンドのポリシー蒸留と、制約のある解空間における探索の困難さを軽減するためにモデルベースのプランナが生成した軌道を活用する初期化戦略を用いる。
  • Sim-to-real(シミュレーションから実機への移行)を設計し検証した結果、この手法は長方形のギャップをクリアランスわずか5 cmでも通過できることが示され、最大で90度の傾斜姿勢にも対応する。さらに、動的ギャップの学習を行っていなくても、移動するギャップに反応できる。
  • 本手法は、手動で定義した通過ポーズや手作業で設計した視覚特徴を用いずに、幾何学的に多様なギャップ配置にわたって一般化できることが報告されている。加えて、互いに近接した細いギャップの走路でも検証されている。

Abstract

軽量なオンボードセンサを用いた精密かつ攻撃的な機動は、ドローンの機動性を完全に活用する上で、依然として主要なボトルネックとなっています。このような機動は、環境中の狭い開口部を通り抜けることで、システムがアクセス可能な領域を拡大するために不可欠です。中でも特に関連性の高い課題の一つは、SE(3)制約のもとでクアッドロータが狭い隙間を攻撃的に通過する問題であり、クアッドロータは一瞬の傾いた姿勢と機体フレームの非対称性を活用して隙間をナビゲートする必要があります。本論文では、オンボード視覚と自己受容(proprioception)を低レベルの制御指令へ直接写像するセンサーモータ・ポリシーを構築することで、こうした機動を実現します。ポリシーは、シミュレーションにおけるエンドツーエンドのポリシー蒸留を伴う強化学習(RL)で学習します。モデルフリーRLの探索が、制限された解空間において本質的に難しいという課題を緩和するために、モデルベース計画器が生成した軌道を活用する初期化戦略を用います。入念なsim-to-real設計により、本ポリシーは、クリアランスが小さくかつ高い再現性を持つ条件下で、クアッドロータを狭い隙間を通して制御できるようになります。たとえば提案手法は、隙間の位置や姿勢についての知識を持たずに、5 cmのクリアランスで長方形の隙間を、最大90度まで傾けた姿勢でナビゲートすることを可能にします。動的な隙間での学習を行わなくても、ポリシーは移動する隙間を通過するように、リアクティブにクアッドロータをサーボ制御できます。提案手法は、互いに近接して配置された狭い隙間の困難なトラックに対して、ポリシーの学習と実運用(デプロイ)によっても検証されます。さらに、このポリシー学習手法の柔軟性は、手作業で定義した通過姿勢や視覚的特徴に依存せずに、幾何学的に多様な隙間向けのポリシーを開発することで示されます。