EgoMotion:階層的推論と拡散による自走視点(頭部装着型)ビジョン・ランゲージのモーション生成
arXiv cs.CV / 2026/4/22
📰 ニュースModels & Research
要点
- この論文は、第一人称の映像入力と自然言語指示から3D人体モーションを生成する、自己視点(egocentric)ビジョン・ランゲージ・モーション生成の新手法「EgoMotion」を提案している。
- 重要な技術課題として、セマンティックな推論と運動(運動学)モデリングを同時に最適化すると勾配が競合し、マルチモーダルな対応付けとモーション品質が低下する「reasoning-generation entanglement」を指摘している。
- EgoMotionは、認知的推論と運動制御を生物学的に分離する発想に基づき、2段階の階層的生成フレームワークでこの問題を解決する。
- 第1段階(cognitive reasoning)では、VLM(vision-language model)がマルチモーダル入力を離散的なモーション・プリミティブの構造化表現へ写像し、意味から実行可能な動作へ橋渡しする。
- 第2段階(motion generation)では、拡散ベースの生成器が連続潜在空間で反復的にノイズ除去を行い、物理的に妥当で時間的に整合した軌道を生成し、既存手法より優れた(SOTA)性能を示している。