リプシッツ制約ポリシーによるヒューマノイドのタスク指定適合境界

arXiv cs.RO / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ヒューマノイド制御における強化学習のための異方性リプシッツ制約ポリシー（ALCP）を導入し、タスク空間の剛性上限を、ポリシーのヤコビ行列に対する状態依存のリプシッツ風制約と結びつける。
この制約は、RL訓練中にヒンジ二乗スペクトルノルムペナルティとして課され、方向依存の適合性を実現しつつ、物理的解釈性を保つ。
単一のスカラー予算しか用いず、物理的に意味のある適合仕様への直接的な結びつきを欠いていた、従来のリプシッツ制約ポリシーの限界を解決する。
ヒューマノイドロボットを用いた実験により、ALCPは歩行の安定性と衝撃耐性を向上させるとともに、振動とエネルギー消費を低減することが示された。

要約: 強化学習（RL）は、ヒューマノイドの二足歩行の移動および複雑な運動の制御において、顕著な可能性を示しています。環境との相互作用によって生じる振動や衝撃に対処するために、適合制御は一般的に効果的な対処法として広く認識されています。しかし、RLのモデルフリー性は、タスク指定の定量的に検証可能な適合性目標を課すことを難しくし、古典的なモデルベースの剛性設計は直接適用できません。Lipschitz-Constrained Policies（LCP）は、勾配ペナルティを介してポリシーの局所感度を規制することで、ヒューマノイドの運動を滑らかにするために最近用いられています。それにもかかわらず、既存のLCPベースの手法は通常、単一のスカラーLipschitz予算を用い、現実世界のシステムにおける物理的に意味のある適合仕様への明示的な結びつきを欠いています。本研究では、タスク空間の剛性上限をポリシーのヤコビアンに対する状態依存の Lipschitz様制約へ写像する異方性 Lipschitz制約付きポリシー（ALCP）を提案します。得られた制約は、RLトレーニング中にヒンジ-二乗スペクトルノルムペナルティを介して適用され、物理的解釈可能性を保持しつつ、方向依存の適合を可能にします。ヒューマノイドロボットでの実験は、ALCPが歩行の安定性と衝撃耐性を向上させ、振動とエネルギー使用量を低減することを示しています。