Dreamerを用いたタスク不変な性質の学習：四足歩行ロボットのための効率的なポリシー移転を可能にする

arXiv cs.RO / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、四足歩行ロボットのためのDreamerベースの枠組みであるDreamTIPを提案し、多様で動的な地形にまたがるシミュレーションから実機への転移（sim-to-real）を改善するためにタスク不変な性質を学習する。
世界モデル内の補助的な予測ターゲット（例：接触の安定性や地形のクリアランス）を用いることで、基盤となるダイナミクスの変化に対して鈍感なポリシー表現を生成する。
効率的な実環境適応戦略として、混合リプレイバッファと正則化制約を組み合わせ、キャリブレーション中の表現崩壊や壊滅的忘却を低減する。
複雑な地形シナリオ（階段、登坂、傾斜、這い歩き）での実験では大幅な改善が示され、8つのシミュレーション転移タスクで平均+28.1%の向上を達成する。
実機での結果では、登坂タスクで劇的な向上が報告されており、ベースラインの成功率10%からDreamTIPでは100%になっている。

要旨: 多様で動的な地形にわたる四足ロボットの移動（ロコモーション）を達成することは、主にシミュレーション環境と実世界の条件との間に存在する不一致に起因し、大きな課題を伴います。従来のsim-to-real（シムから実世界への）転移手法は、しばしば手動による特徴設計や、高コストな実世界での微調整に依存します。これらの制約に対処するため、本論文ではDreamTIPフレームワークを提案します。この枠組みは、Dreamerのワールドモデル・アーキテクチャ内にTask-Invariant Properties（タスク不変特性）の学習を組み込むことで、sim-to-real転移能力を高めます。大規模言語モデルに導かれるDreamTIPは、接触安定性や地形クリアランスといったタスク不変特性を同定し、それらを活用します。これらの特性は動的な変動に対して頑健であり、タスク間で強力な転移可能性を示します。これらの特性は補助的な予測目標としてワールドモデルに統合され、方策（ポリシー）が基盤となる動的変化に鈍感な表現を学習できるようにします。さらに、表現の崩壊（representation collapse）や壊滅的忘却（catastrophic forgetting）を効果的に抑えつつ、実世界の動力学に迅速にキャリブレーションするための効率的な適応戦略が設計されており、混合リプレイバッファと正則化制約を用います。階段（Stair）、登坂（Climb）、傾斜（Tilt）、這い進み（Crawl）を含む複雑な地形に関する大規模な実験により、DreamTIPはシミュレーション環境および実環境のいずれにおいても、最先端のベースラインを大きく上回ることが示されます。本手法は、8つの異なるシミュレーション転移タスクにおいて平均28.1%の性能向上を達成します。実世界のClimbタスクでは、ベースライン手法の成功率は10%に留まったのに対し、本手法は成功率100%を達成しました。これらの結果は、Dreamer学習にタスク不変特性を組み込むことが、頑健で転移可能なロボット移動を実現するための新しい解決策となり得ることを示しています。