E2E-Fly:エンドツーエンドのquadrotor自律性のための、訓練からデプロイまでを統合するシステム

arXiv cs.RO / 2026/4/15

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、シミュレーションで学習したquadrotor用のエンドツーエンド方策を現実へ転移する際の、レンダリング効率・物理モデリング誤差・センサ差・統合基盤不足といった課題に対処するための統合フレームワークE2E-Flyを提案しています。
  • E2E-Flyは高性能シミュレータ(強化学習と微分可能物理学学習に対応)と、一般的なタスク向けに設計された報酬設計を含むフルスタックの学習・検証ワークフローを備えています。
  • 検証は2段階(sim-to-sim転移→hardware-in-the-loop)で行い、さらに現実デプロイではシステム同定・ドメインランダム化・遅延補償・ノイズモデリングによるsim-to-real整合を実施します。
  • 実験では6つのエンドツーエンド制御タスクの学習と、2つの実機quadrotorへの実デプロイで有効性を示しています。

Abstract

シミュレーションから現実へのクアドロトールに対する、学習ベースのポリシーの学習と転移は、非効率な視覚レンダリング、物理モデリングの不正確さ、未モデル化のセンサ差異、ならびに微分可能な物理学習をエンドツーエンド学習へ統合する統一プラットフォームの欠如により、依然として困難です。近年の研究ではさまざまなエンドツーエンドのクアドロトール制御タスクが示されているものの、系統的でゼロショットな転移のパイプラインを提供するシステムは多くなく、その結果、再現性や現実環境への展開が妨げられています。このギャップを埋めるために、機敏なクアドロトールのプラットフォームと、学習・検証・デプロイメントまでを統合するフルスタックなワークフローを備えた統合フレームワーク「E2E-Fly」を提案します。学習フレームワークは、微分可能な物理学習および強化学習をサポートする高性能シミュレータと、一般的なクアドロトール課題に合わせて設計された体系的な報酬設計を組み込みます。さらに、シム対シム転移とハードウェア・イン・ザ・ループ検証を用いる2段階の検証戦略を導入し、専用の低レベル制御インタフェースと、シム・ツー・リアルの整合方法論(システム同定、ドメインランダム化、遅延補償、ノイズモデリングを含む)により、2つの物理クアドロトールプラットフォームへポリシーをデプロイします。私たちの知る限り、本研究はクアドロトールに対して、微分可能な物理学習を学習・検証・現実環境へのデプロイメントまで体系的に統一した最初の試みです。最後に、本フレームワークの有効性を、6つのエンドツーエンド制御タスクの学習と、それらの現実環境でのデプロイによって実証します。