並列弾性関節によって支援されるエネルギー効率の高い二足歩行…ではなく四足歩行のための、物理的模倣学習（PIL）パイプライン

arXiv cs.RO / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、強化学習（RL）の四足ロボット制御ポリシーを、受動的な並列弾性関節（PEJ）にオフロードできる物理的に実現可能な関節応答へと蒸留する、物理的模倣学習（PIL）パイプラインを提案する。
受動的な弾性要素に機械的パワーの相当部分を委ねることで、RL性能を回復するために残差（residual）のモータコマンドを用いる。
シミュレーション結果では大幅なエネルギー節約が示され、平坦地では最大87%の機械的パワーがPEJにオフロードされ、荒れた地形では18%であった。
この手法は、「身体と脳の共同設計（brain-body co-design）」として、身体の設計パラメータを共同で最適化するのではなく、既存の制御ポリシーから蒸留することで、計算探索の複雑さを減らすことを目指す。
著者らは、この計算効率が高く、タスク特化した身体化（Embodied Physical Intelligence）アプローチが、関節ベースの他のロボット形態にも一般化できると主張している。

要旨: 脳と身体の共進化のため、動物の固有の身体ダイナミクスは、エネルギー効率の高い移動において重要な役割を果たします。そこでは、能動筋と受動的な身体ダイナミクスの間で制御努力が分担されます。この原理は、Embodied Physical Intelligence（身体化された物理的知能）として知られています。対照的に、ロボットの身体はしばしば1つの中央集権的なコントローラで設計され、その場合固有の身体ダイナミクスは抑制されがちであり、それを活用することは通常ありません。本研究では、強化学習（RL）の制御ポリシーを、受動的な平行弾性関節（PEJ）に直接オフロードできる、物理的に実装可能な身体応答へと蒸留する Physical Imitation Learning（PIL）を提案します。これにより、身体は制御された行動の一部を模倣できるようになります。一方で、残差ポリシーはモータに対して命令を出し、RLポリシーの性能を回復させます。PEJへ制御ポリシーの一部を委託することで、エネルギー消費全体を削減できることを示します。ここでは、シミュレーション上の四足歩行ロボットで、提案するPIL手法が平坦地では機械的パワーの最大87%をPEJへオフロードでき、荒れた地形では18%をオフロードできることを示します。さらに、身体設計は制御ポリシーと「共同最適化」されるのではなく「蒸留」されるため、身体設計パラメータによって探索空間を拡大することなく、PILは脳-身体の共設計を実現します。これにより、計算効率の高い、タスク特化型のEmbodied Physical Intelligenceへの道が提供され、関節ベースのロボット多様な形態に適用可能です。