CReF:深度条件付きヒューマノイド歩行のためのクロスモーダルかつ反復(リカレント)融合
arXiv cs.RO / 2026/4/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、CReF(Cross-modal and Recurrent Fusion)を提案する。これは、2.5D地形表現のような明示的な幾何学的中間表現や補助的な深度ターゲットに依存せず、前方正面視の生の深度から直接学習する、単段(single-stage)の深度条件付きヒューマノイド歩行フレームワークである。
- CReFは、自己受容(proprioception)に基づくクエリを用いたクロスモーダル注意機構により、自己受容トークンと深度トークンを融合し、その後にゲート付き残差融合ブロックを用いて表現を効果的に組み合わせる。
- 時間的振る舞いは、GRUとハイウェイ(highway)スタイルの出力ゲートを組み合わせて統合し、ロボットの状況に応じて反復状態の特徴とフィードフォワード特徴を適応的にブレンドする。
- 現実環境における地形との相互作用を改善するために、本手法は足先端の点群を用いて支持可能な足着き(foothold)候補を生成し、最も近い実行可能候補の近傍での着地に報酬を与える、地形認識(terrain-aware)型の足着き配置報酬を追加する。
- 実験では、シミュレーションおよび実機のヒューマノイドの両方で頑健な踏破が報告されており、手すりのある実シーン、空洞構造、反射による干渉、視覚的に雑然とした屋外環境へのゼロショット転移も含まれる。




