階段状地形におけるハイブリッドロボットのための省エネルギーな空中—地上アクチュエーションの学習

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、階段状地形におけるハイブリッド空中—地上ロボットの主要な制約、すなわち車輪だけではエッジで停止してしまい、小さな高さの獲得に対して純粋な飛行が非効率である点に取り組む。
そこで、プロペラ、車輪、ティルトサーボを協調させる単一の連続制御ポリシーを、あらかじめ定義された「空中」および「地上」のモード間で切り替えることなく学習する、省エネルギーを意識した強化学習フレームワークを提案する。
学習では、Isaac Lab における並列環境で、自己受容（proprioception）に加えて局所的な高さスキャンを用い、報酬関数が代理指標ではなく実際の電気エネルギーを罰するように、ハードウェアで校正した推力／電力モデルに依存する。
シミュレーション結果では、プロペラのみの制御に比べて約4倍のエネルギー削減が示される。さらに、学習したポリシーは DoubleBee プロトタイプへ移植され、8cmのギャップ乗り越え課題において、ルールベースで分離したコントローラより平均消費電力を38%低減する。
全体として、本研究は、エネルギー効率の高いハイブリッド駆動が学習によって創発し、実機へ展開可能であることを示している。

Abstract

ハイブリッドな空中―地上ロボットは移動可能性と持久性の両方を提供しますが、階段状の不連続がトレードオフを生みます。すなわち、車輪だけでは段差の縁でよく停止し、飛行は小さな高度上昇のためにエネルギーを消費しがちです。そこで本研究では、あらかじめ空中モードと地上モードを定義せずに、プロペラ、車輪、ティルトサーボを協調させる単一の連続ポリシーを学習する、エネルギーを考慮した強化学習フレームワークを提案します。ポリシーは、Isaac Lab における並列環境で、身体感覚（proprioception）と局所的な高さスキャンから学習し、さらにハードウェアで校正した推力/電力モデルを用いて報酬が真の電気エネルギーを罰するようにします。学習されたポリシーは、空中推力と地上のトラクションを融合する、推力支援型の走行を発見します。シミュレーションでは、プロペラ単独制御に比べて約4倍低いエネルギーを達成します。ポリシーは、8cmのギャップを登る課題において DoubleBee のプロトタイプへ転送されます。その結果、ルールベースのデカップル型コントローラに比べて平均消費電力を38%低減します。これらの結果は、効率的なハイブリッド駆動が学習によって創発し、ハードウェア上で展開できることを示しています。