4足ロボットのスケートボード走行のための、特徴量ごとの線形変調によるフェーズ認識型ポリシー学習

arXiv cs.RO / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、フェーズごとのダイナミクスや知覚に基づく相互作用の難しさを踏まえ、4足ロボットでスケートボードに乗るための強化学習フレームワーク「Phase-Aware Policy Learning(PAPL)」を提案しています。
  • PAPLは、スケートボードの周期的な性質を活用して、位相条件付き特徴量ごとの線形変調(FiLM)層をアクター・クリティック双方のネットワークに組み込み、フェーズに応じた行動を1つの統一ポリシーとして学習できるようにします。
  • 異なるスケートボード・フェーズ間で知識を共有しつつ、ロボット固有の特性にも適応することで、ポリシーの分断を抑えながら汎化を高めることを狙っています。
  • シミュレーション評価では、指令追従精度の高さが示され、各構成要素の寄与を定量化するアブレーション研究も行われています。
  • レッグ型およびホイールレッグ型のベースラインとの比較に加え、現実環境への転移可能性(リアルワールドへの移行)も示され、シミュレーション外でも頑健性が期待できる内容です。

要旨: スケートボードは、個人用モビリティ機器の一種として、コンパクトで効率的な移動手段を提供します。しかし、脚のあるロボットでそれらを制御するには、知覚に駆動された相互作用や、スケートボードの異なるフェーズ間にまたがる多様な制御目標のため、方策学習にいくつかの課題があります。これらの課題に対処するため、我々は四脚ロボットによるスケートボード向けの強化学習フレームワークである Phase-Aware Policy Learning (PAPL) を提案します。PAPL は、スケートボードの周期的な性質を活用し、フェーズ条件付き Feature-wise Linear Modulation(FiLM)層を俳優(actor)および批評家(critic)のネットワークに統合することで、フェーズに依存した振る舞いを捉えつつ、フェーズ間でロボット固有の知識を共有できる統一的な方策を可能にします。シミュレーションにおける評価では、指令追従精度を検証し、各コンポーネントの寄与を定量化するアブレーション研究を実施しました。さらに、脚型およびホイール脚型のベースラインに対して移動効率を比較し、実環境への移行可能性も示します。