サブ最適なコントローラ上でのオフライン強化学習による全身モバイルマンipulation

arXiv cs.RO / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テレオペレーションや重い報酬設計に依存せず、サブ最適な全身コントローラを構造的な事前知識（プリオル）として活用する、全身モバイルマニピュレーションの2段階アプローチである WHOLE-MoMa を提案する。
軽量な WBC（Whole-Body Controller）をランダム化することで多様なデモンストレーションを生成し、その後、学習した報酬信号を用いて、改善された行動を発見し「縫い合わせる（stitch）」ためにオフライン強化学習を行う。
複雑な協調を扱うために、本手法は、チャンク単位のクリティックを評価するように、オフラインの暗黙的Q学習（offline implicit Q-learning）を Q-chunking で拡張し、さらにアクション・チャンク化された拡散ポリシーに対して advantage-weighted policy extraction を用いる。
シミュレーションにおいて、TIAGo++ モバイルマニピュレータで難易度を段階的に上げたタスクを評価したところ、WHOLE-MoMa は階層的WBC、行動クローニング（behavior cloning）、および複数のオフラインRLベースラインを上回る。
学習済みポリシーは微調整なしで実ロボットへ直接転移でき、実環境での学習データを一切用いずに、両腕による引き出し操作で80%の成功率、同時に棚扉の開放と物体配置を行うタスクで68%を報告する。

要旨: 関節を持つ物体のモバイル操作（MoMa）、たとえばドア・引き出し・戸棚の開閉には、ロボットのベースとアームの間で、同時に身体全体の協調（whole-body coordination）を行うことが求められる。古典的な身体全体コントローラ（WBC）は、階層的最適化によってこのような問題を解くことができるが、広範な手作業による最適化が必要であり、しかも脆い。これに対し、学習ベースの手法は一般化能力が高いことを示す一方で、通常は高価な身体全体テレオペレーションデータや、重い報酬設計に依存している。我々は、最適ではないとしてもWBCが強力な構造的事前知識（structural prior）となり得ることに注目する。つまり、状態行動空間において課題に関係する制約された領域でデータを収集するために使えるだけでなく、その挙動はオフライン強化学習によりなお改善できる。本研究では、これを踏まえてWHOLE-MoMaを提案する。これは二段階のパイプラインであり、まず軽量なWBCをランダム化して多様なデモンストレーションを生成し、次に報酬信号を用いてオフラインRLにより改良された振る舞いを同定し、つなぎ合わせる。複雑な協調課題に必要な、表現力のある行動チャンク化拡散ポリシーを支えるために、オフラインimplicit Q-learningを拡張し、チャンク単位のクリティック評価のためのQ-chunkingと、優位度（advantage）に基づく重み付けによるポリシー抽出を導入する。シミュレーション上でTIAGo++モバイルマニピュレータを用いた、難易度を段階的に上げる3つのタスクにおいて、WHOLE-MoMaはWBC、行動クローン、ならびに複数のオフラインRLベースラインを大きく上回る。ポリシーは微調整なしで実機に直接転移し、両手による引き出し操作で80%の成功率、同時に戸棚を開いて物体を配置する課題で68%の成功率を達成する。しかも、テレオペレートされたデータや実環境での学習データはいずれも一切用いていない。

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

日経XTECH

サブ最適なコントローラ上でのオフライン強化学習による全身モバイルマンipulation

要点

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減