CReF：深度条件付きヒューマノイド歩行のためのクロスモーダルかつ反復（リカレント）融合

arXiv cs.RO / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、CReF（Cross-modal and Recurrent Fusion）を提案する。これは、2.5D地形表現のような明示的な幾何学的中間表現や補助的な深度ターゲットに依存せず、前方正面視の生の深度から直接学習する、単段（single-stage）の深度条件付きヒューマノイド歩行フレームワークである。
CReFは、自己受容（proprioception）に基づくクエリを用いたクロスモーダル注意機構により、自己受容トークンと深度トークンを融合し、その後にゲート付き残差融合ブロックを用いて表現を効果的に組み合わせる。
時間的振る舞いは、GRUとハイウェイ（highway）スタイルの出力ゲートを組み合わせて統合し、ロボットの状況に応じて反復状態の特徴とフィードフォワード特徴を適応的にブレンドする。
現実環境における地形との相互作用を改善するために、本手法は足先端の点群を用いて支持可能な足着き（foothold）候補を生成し、最も近い実行可能候補の近傍での着地に報酬を与える、地形認識（terrain-aware）型の足着き配置報酬を追加する。
実験では、シミュレーションおよび実機のヒューマノイドの両方で頑健な踏破が報告されており、手すりのある実シーン、空洞構造、反射による干渉、視覚的に雑然とした屋外環境へのゼロショット転移も含まれる。

Abstract

幾何学的に複雑な地形に対する安定した走破には、外受容（exteroceptive）知覚の重要性がますます高まっている一方で、従来の知覚ベースのヒューマノイド移動（locomotion）手法は、多くの場合、明示的な幾何学的抽象化に結びついたままです。具体的には、ロボット中心の2.5D地形表現を介して制御を媒介したり、深度学習を補助的な幾何学関連の目的関数によって形作ったりします。このような設計は、中間の、あるいは教師ありのターゲットが持つ表現バイアスを継承してしまい、垂直構造、貫通（穿孔）した障害物、そして複雑な現実環境の乱雑さに対して制約となり得ます。そこで本研究では、CReF（Cross-modal and Recurrent Fusion：クロスモーダル＆反復的フュージョン）を提案します。これは単一段（single-stage）の、深度条件付きヒューマノイド移動フレームワークであり、明示的な幾何学的中間表現を用いずに、前方正面視（raw forward-facing）の深度そのものから移動に関係する特徴を直接学習します。CReFは、自己受容（proprioception）のトークンと深度トークンを、自己受容がクエリ（proprioception-queried）を行うクロスモーダル注意によって結合し、その結果の表現を、ゲート付き残差フュージョン・ブロックで融合させます。そして、反復的特徴とフィードフォワード特徴の状態依存のブレンドを行うために、高速道路（highway）方式の出力ゲートによって制御されたGated Recurrent Unit（GRU）による時間統合を実施します。さらに地形との相互作用を高めるために、路盤（terrain）を意識したつま先支持（foothold）配置の報酬を導入します。これは、足先端（foot-end）の点群サンプルから支持可能なつま先候補を抽出し、最も近い支持可能候補の近傍に位置する接地（touchdown）位置に対して報酬を与えます。シミュレーションと物理的なヒューマノイド上の実験により、多様な地形に対する頑健な走破と、手すり、中空のパレット（pallet）構造、強い反射による干渉、視覚的に雑多な屋外環境を含む現実シーンへの効果的なゼロショット転移が示されます。