要旨: 関節を持つ物体のモバイル操作(MoMa)、たとえばドア・引き出し・戸棚の開閉には、ロボットのベースとアームの間で、同時に身体全体の協調(whole-body coordination)を行うことが求められる。古典的な身体全体コントローラ(WBC)は、階層的最適化によってこのような問題を解くことができるが、広範な手作業による最適化が必要であり、しかも脆い。これに対し、学習ベースの手法は一般化能力が高いことを示す一方で、通常は高価な身体全体テレオペレーションデータや、重い報酬設計に依存している。我々は、最適ではないとしてもWBCが強力な構造的事前知識(structural prior)となり得ることに注目する。つまり、状態行動空間において課題に関係する制約された領域でデータを収集するために使えるだけでなく、その挙動はオフライン強化学習によりなお改善できる。本研究では、これを踏まえてWHOLE-MoMaを提案する。これは二段階のパイプラインであり、まず軽量なWBCをランダム化して多様なデモンストレーションを生成し、次に報酬信号を用いてオフラインRLにより改良された振る舞いを同定し、つなぎ合わせる。複雑な協調課題に必要な、表現力のある行動チャンク化拡散ポリシーを支えるために、オフラインimplicit Q-learningを拡張し、チャンク単位のクリティック評価のためのQ-chunkingと、優位度(advantage)に基づく重み付けによるポリシー抽出を導入する。シミュレーション上でTIAGo++モバイルマニピュレータを用いた、難易度を段階的に上げる3つのタスクにおいて、WHOLE-MoMaはWBC、行動クローン、ならびに複数のオフラインRLベースラインを大きく上回る。ポリシーは微調整なしで実機に直接転移し、両手による引き出し操作で80%の成功率、同時に戸棚を開いて物体を配置する課題で68%の成功率を達成する。しかも、テレオペレートされたデータや実環境での学習データはいずれも一切用いていない。
サブ最適なコントローラ上でのオフライン強化学習による全身モバイルマンipulation
arXiv cs.RO / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テレオペレーションや重い報酬設計に依存せず、サブ最適な全身コントローラを構造的な事前知識(プリオル)として活用する、全身モバイルマニピュレーションの2段階アプローチである WHOLE-MoMa を提案する。
- 軽量な WBC(Whole-Body Controller)をランダム化することで多様なデモンストレーションを生成し、その後、学習した報酬信号を用いて、改善された行動を発見し「縫い合わせる(stitch)」ためにオフライン強化学習を行う。
- 複雑な協調を扱うために、本手法は、チャンク単位のクリティックを評価するように、オフラインの暗黙的Q学習(offline implicit Q-learning)を Q-chunking で拡張し、さらにアクション・チャンク化された拡散ポリシーに対して advantage-weighted policy extraction を用いる。
- シミュレーションにおいて、TIAGo++ モバイルマニピュレータで難易度を段階的に上げたタスクを評価したところ、WHOLE-MoMa は階層的WBC、行動クローニング(behavior cloning)、および複数のオフラインRLベースラインを上回る。
- 学習済みポリシーは微調整なしで実ロボットへ直接転移でき、実環境での学習データを一切用いずに、両腕による引き出し操作で80%の成功率、同時に棚扉の開放と物体配置を行うタスクで68%を報告する。
