EgoSim：身体化されたインタラクション生成のための自己中心的ワールド・シミュレータ

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

EgoSimは、空間的に一貫したインタラクション動画を生成するために設計されたクローズドループの自己中心的（egocentric）3Dワールド・シミュレータであり、多段階のインタラクションを通じて基盤となる3Dシーン状態を持続的に更新します。
本手法は、幾何構造と行動を意識した観測シミュレーション・モデルと、インタラクションを意識した状態更新モジュールを組み合わせることで、構造ドリフトを抑え、シミュレーション中の非静的な環境変化にも対応します。
整合された学習データが乏しいという課題に対して、EgoSimは、大規模な野外のモノラル自己中心的動画からポイントクラウド、カメラ軌道、身体化（embodiment）アクションを抽出するスケーラブルなパイプラインを用います。
付随する低コストのキャプチャシステム「EgoCap」は、校正されていないスマートフォンを使って現実世界のデータを収集し、より幅広い学習と評価を可能にします。
実験結果として、EgoSimは視覚品質、空間的整合性、複雑なシーンへの汎化、ならびにロボットによるマニピュレーションにおける身体（エンボディメント）をまたいだ転移の面で、先行手法を上回ると報告されています。コードとデータセットは近日公開予定です。

Abstract

私たちは、空間的に整合性のあるインタラクション動画を生成し、連続シミュレーションのために基盤となる3Dシーン状態を持続的に更新する、クローズドループの自己視点（egocentric）ワールドシミュレータであるEgoSimを導入します。既存の自己視点シミュレータは、明示的な3Dグラウンディングを欠いているため視点変更時に構造的なドリフトが生じるか、シーンを静的として扱うため複数段階の相互作用にまたがってワールド状態を更新できない、といういずれかの課題があります。EgoSimは、3Dシーンを更新可能なワールド状態としてモデル化することで、この両方の制限に対処します。私たちは、インタラクションに応じた状態更新モジュールによる空間的整合性を備えた、Geometry-action-aware Observation Simulationモデルにより、身体化（embodiment）の相互作用を生成します。密に整合したシーン—相互作用の学習ペアを取得することが難しいことによって生じる、重大なデータのボトルネックを克服するために、実世界の大規模なモノクロ自己視点動画から静的な点群、カメラ軌道、身体化アクションを抽出するスケーラブルなパイプラインを設計します。さらに、較正されていないスマートフォンによる低コストな実世界データ収集を可能にするキャプチャシステムであるEgoCapを導入します。大規模な実験の結果、EgoSimは、視覚品質、空間的整合性、複雑なシーンおよび実環境（in-the-wild）での巧緻な相互作用への汎化の面で、既存手法を大きく上回ることが示されました。また、ロボットによる操作（ロボティックマニピュレーション）への身体の形態（embodiment）を跨いだ転移もサポートします。コードとデータセットはまもなく公開予定です。プロジェクトページは egosimulator.github.io です。