人間データから学習するヒューマノイドのナビゲーション

arXiv cs.RO / 2026/4/2

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

この手法は、もっともらしい将来の軌跡分布を予測する拡散モデル、色・深度・セマンティクス情報を融合する360°の視覚メモリ、そして深度センサが見落とし得る手がかりを捉えるために凍結したDINOv3バックボーンから抽出した外観特徴を組み合わせる。

要旨: 我々はEgoNavを提示する。これは、人型ロボットが、5時間分の人間の歩行データのみから学習することで、ロボットデータや微調整なしに、さまざまで未観測の環境を横断できるようにするシステムである。拡散モデルは、過去の軌跡に条件付けられた、あり得る将来軌跡の分布を予測する。さらに、360度の視覚メモリが、色・奥行き・意味論を統合する。加えて、凍結したDINOv3バックボーンから得られる映像特徴は、奥行きセンサでは捉えられない見えの手がかりを捉える。ハイブリッドなサンプリング手法により、10回のノイズ除去ステップでリアルタイム推論を実現し、予測された分布から経路を選択する後退ホライズン制御器を用いる。我々は、衝突回避とマルチモーダルなカバレッジにおいてベースラインを上回るオフライン評価と、未見の屋内外環境にまたがるUnitree G1の人型ロボットでのゼロショット展開によってEgoNavを検証した。ドアが開くのを待つこと、人混みを避けて進むこと、ガラスの壁を回避することといった行動は、学習された事前分布から自然に現れる。我々はデータセットと訓練済みモデルを公開する予定である。公式サイト: https://egonav.weizhuowang.com