AI Navigate

フォトリアリスティックな手-物体相互作用合成のためのエゴセントリック世界モデル

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • EgoHOIは、自己視点の人間-物体相互作用の世界モデルを導入し、将来の物体状態に依存せず、行動信号だけからフォトリアルで接触一貫性のある相互作用をシミュレートできる。
  • モデルは、3D推定から導出された幾何学的および運動学的事前知識から蒸留された、物理情報を含む埋め込みを用いて、自己視点ロールアウト中の物理的に妥当なダイナミクスを強制します。
  • HOT3Dデータセット上で、EgoHOIは強力なベースラインに対して一貫した改善を達成し、アブレーション研究により物理情報を取り入れた設計の重要性が確認されています。
  • 本研究は、条件付き動画生成を超え、ユーザーの行動によって駆動される真のシミュレーターへ移行することで、体現型AIのためのスケーラブルなデータソースを提供することを目指しています。

要旨: 身体化AIのためのスケーラブルなデータソースとして機能するには、ワールドモデルは、特権的な未来のオブジェクト状態に依存する条件付きビデオ生成器ではなく、ユーザーの行動だけから相互作用ダイナミクスを厳密に推論する真のシミュレーターとして機能すべきである。
この文脈では、エゴセントリックな人間-物体相互作用(HOI)のワールドモデルが、物理的に根拠のある一人称の展開を予測するうえで重要である。
しかし、このようなモデルの構築は、頭部の急激な動き、激しい遮蔽、接触トポロジーを突然変化させる高自由度の手の関節運動により、極めて困難である。
その結果、既存のアプローチは、既知の未来のオブジェクト軌道にアクセスできる条件付きビデオ生成に頼ることで、これらの物理的課題を回避することが多い。
ここで、行動信号だけからフォトリアリスティックで接触の一貫性のある相互作用をシミュレートするエゴセントリックHOIワールドモデル、EgoHOIを紹介する。
未来状態の入力なしで物理的正確性を保証するために、EgoHOIは3D推定から幾何学的および運動学的事前情報を、物理情報に基づく埋め込みへと蒸留する。
これらの埋め込みは、エゴセントリックなロールアウトを物理的に妥当なダイナミクスへ正則化する。
HOT3Dデータセットでの実験は、強力なベースラインに対して一貫した改善を示し、アブレーション分析は、私たちの物理情報を取り入れた設計の有効性を検証している。