UniT:ヒト型からホムンクル(ヒューマノイド)へのポリシー学習と世界モデル化に向けた統一的な物理言語

arXiv cs.RO / 2026/4/22

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • UniTは、ヒトとヒューマノイドの間に大きな運動学的差があっても、ヒトからロボットへ学習を転移するための統一的な「物理言語」を提案します。
  • 3つのブランチによるクロス再構成(アクション→視覚でのアンカー付け、視覚→アクションでのノイズ除去、さらに融合モジュール)により、身体形状に依存しない離散潜在空間の「身体的意図」を作ります。
  • 提案は2つの枠組みで検証されています:VLA-UniTはヒューマノイドのポリシー学習で多様なヒトデータを活用し、WM-UniTは世界モデル化としてヒトからヒューマノイドへの行動転送を行います。
  • データ効率の向上、OOD(分布外)に対する頑健性、さらにゼロショットでの課題転送などが報告され、加えてヒューマノイド動画生成における行動制御性の改善も示します。
  • 著者らは、t-SNE可視化によってヒト特徴とヒューマノイド特徴が共通のマニフォールドへ収束することを根拠に、身体をまたいだ表現の整合を実証したと述べています。

概要: ヒューマノイドの基盤モデルをスケールすることは、ロボットデータの希少性によってボトルネック化されています。大規模な一人称視点の人間データはスケーラブルな代替手段を提供しますが、運動学的な不一致に起因する「異身体間(cross-embodiment)のギャップ」を埋めることは根本的な課題として残っています。本研究では、UniT(Visual Anchoring による Unified Latent Action Tokenizer)を導入し、人間からヒューマノイドへの転送のための統一された物理言語を確立する枠組みを提案します。異種の運動学は普遍的な視覚的帰結を共有する、という哲学に基づき、UniT は三分岐のクロス再構成メカニズムを採用します。すなわち、行動は視覚を予測して運動学を物理的な結果へとアンカーし、一方で視覚は行動を再構成して無関係な視覚的な錯綜要因を取り除きます。さらに、統合(融合)ブランチがこれらの精製されたモダリティを相乗的に結合し、身体性(embodiment)に依存しない物理的意図からなる共有された離散潜在空間を形成します。UniT は 2 つのパラダイムで検証します。1) 方策学習(VLA-UniT): これらの統一トークンを予測することで、多様な人間データを効果的に活用し、ヒューマノイドシミュレーションのベンチマークおよび現実世界での導入の両方において、最新水準のデータ効率と頑健な分布外(OOD)汎化を達成します。とりわけゼロショットのタスク転送を実証します。2) 世界モデル化(WM-UniT): 統一トークンを条件として異身体間のダイナミクスを整合させることにより、人間からヒューマノイドへの直接的な行動転送を実現します。この整合によって、人間データはヒューマノイド動画生成のための行動制御性を高める形でシームレスに変換されます。最終的に、強く整合した異身体間表現を誘導します(人間とヒューマノイドの特徴が共有マニフォールドへ収束することを、t-SNE の可視化により実証)。これにより、UniT は膨大な人間の知識を汎用的なヒューマノイド能力へ蒸留するためのスケーラブルな道筋を提供します。