VisFly-Lab:クアッドロタ制御の一次強化学習のための統一的・微分可能なフレームワーク
arXiv cs.RO / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多任務のクアッドロタ制御(ホバリング、追跡、着陸、レース)を目的とした一次強化学習のための、統一的で拡張可能な微分可能シミュレーションフレームワーク「VisFly-Lab」を提案する。
- タスク固有のクアッドロタRL設定における分断を減らすため、共通のラップド(共通化された)インターフェースと、デプロイメント指向のダイナミクスを提供する。
- 著者らは、標準的な一次手法における2つの学習ボトルネックを特定する。すなわち、(1) ホライゾン初期化による状態カバレッジの限定、(2) 部分的に非微分可能な報酬による勾配バイアスである。
- これらの課題に対処するため、彼らは「修正バックプロパゲーション・スルー・タイム(ABPT)」を導入し、微分可能ロールアウト最適化、価値ベースの補助目的、訪問状態の初期化を組み合わせて頑健性を高める。
- 実験では、報酬が部分的に非微分可能なタスクで最も大きな改善が得られることが示され、さらにシミュレーションからの一部の方策移転を伴う、現実世界へのデプロイの概念実証も報告している。




