階層タスク空間RL計画と関節空間QP制御による反応的巧み把持の学習

arXiv cs.RO / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、高レベルのタスク空間での意図と低レベルの関節実行を分離する、反応的な巧み把持の階層型制御フレームワークを提案している。
マルチエージェント強化学習（アームとハンドを分けたエージェント）によりタスク空間の速度コマンドを生成し、そのコマンドをGPU並列化された二次計画法（QP）コントローラで実行可能な関節速度へ変換する。
QP層で運動学的制約や衝突回避を厳密に満たすことで、学習の収束を加速しつつハードウェア安全性も厳格に担保することを狙っている。
さらに、再学習なしで安全マージンを調整したり動的障害物を回避したりできる「ゼロショット・スティアビリティ」を主張している。
シミュレーションから実機への検証を通じて、7自由度アームと20自由度の人型把持器を備えた実機実験では、未見物体への頑健なゼロショット転移と、非構造環境での予期しない外乱からの回復が示された。

要旨: 本研究では、反応型の巧みな把持のためのハイブリッド階層制御フレームワークを提案します。この枠組みでは、高レベルの空間的意図を、低レベルの関節動作から明示的にデカップリングします。さらに、別々の腕エージェントと手エージェントに特化したマルチエージェント強化学習アーキテクチャを導入し、これを高レベルのプランナーとして機能させます。このプランナーは、所望のタスク空間速度指令を生成します。次に、これらの指令はGPU並列化された二次計画法（Quadratic Programming）コントローラによって処理され、運動学的な制限と衝突回避を厳密に満たしながら実現可能な関節速度へと変換されます。この構造的な分離は、学習の収束を加速するだけでなく、ハードウェアの安全性を厳密に保証します。さらに、このアーキテクチャにより、ゼロショットでの操舵可能性が実現されます。これにより、システムの運用者は、ポリシーを再学習することなく、安全マージンを動的に調整し、動的な障害物を回避できます。本提案フレームワークは、厳密なシミュレーションから現実へのパイプラインを通じて徹底的に検証しています。7自由度（DoF）の腕に20自由度（DoF）の擬人型手を備えた実世界のハードウェア実験では、多様な未知物体に対する巧みな把持において、高い頑健性をもってゼロショット転移が可能であることが示されました。これは、構造化されていない環境において予期しない物理的な外乱から、反応的に回復できるシステム能力を明確に示しています。