EgoMotion:階層的推論と拡散による自走視点(頭部装着型)ビジョン・ランゲージのモーション生成

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

要点

  • この論文は、第一人称の映像入力と自然言語指示から3D人体モーションを生成する、自己視点(egocentric)ビジョン・ランゲージ・モーション生成の新手法「EgoMotion」を提案している。
  • 重要な技術課題として、セマンティックな推論と運動(運動学)モデリングを同時に最適化すると勾配が競合し、マルチモーダルな対応付けとモーション品質が低下する「reasoning-generation entanglement」を指摘している。
  • EgoMotionは、認知的推論と運動制御を生物学的に分離する発想に基づき、2段階の階層的生成フレームワークでこの問題を解決する。
  • 第1段階(cognitive reasoning)では、VLM(vision-language model)がマルチモーダル入力を離散的なモーション・プリミティブの構造化表現へ写像し、意味から実行可能な動作へ橋渡しする。
  • 第2段階(motion generation)では、拡散ベースの生成器が連続潜在空間で反復的にノイズ除去を行い、物理的に妥当で時間的に整合した軌道を生成し、既存手法より優れた(SOTA)性能を示している。

Abstract

動的環境における人間の行動を忠実にモデル化することは、身体知能(embodied intelligence)のための基礎的な課題です。条件付きモーション合成は大きな進展を遂げていますが、自己視点(egocentric)の動作生成は、第一人称の知覚の本質的な複雑さのために、ほとんど未踏のままです。本研究では、自己視点ビジョン・言語(Egocentric Vision-Language: Ego-VL)によるモーション生成を調査します。この課題では、第一人称の視覚観測と自然言語による指示の双方に条件付けられた3Dの人間の動作を合成する必要があります。私たちは、重要な extit{推論生成の絡み合い(reasoning-generation entanglement)}という課題を特定します。すなわち、意味的推論と運動学的モデリングの同時最適化は、勾配(gradient)の衝突を引き起こします。これらの衝突は、多モーダルなグラウンディングの忠実度とモーション品質を系統的に低下させます。 この課題に対処するために、階層的生成フレームワーク extbf{EgoMotion}を提案します。認知的推論と運動制御の生物学的な分離に着想を得て、EgoMotionは2つの段階で動作します。認知推論(Cognitive Reasoning)段階では、視覚言語モデル(VLM)が、マルチモーダル入力を離散的なモーション・プリミティブの構造化された空間へ投影します。これにより、VLMは目標に整合した表現を獲得するよう強制され、より高次の知覚理解と低次の行動実行の間の意味ギャップを実質的に橋渡しします。モーション生成(Motion Generation)段階では、これらの学習済み表現が、拡散ベースのモーション生成器に対する、表現力のある条件付け信号として機能します。連続潜在空間で反復的なデノイズ(雑音除去)を行うことで、生成器は物理的にもっともらしく、かつ時間的に整合した軌道(トラジェクトリ)を合成します。大規模な評価により、EgoMotionが最先端の性能を達成し、既存手法に比べて意味的にグラウンディングされ、かつ運動学的にも優れたモーション列を生成することが示されます。