EgoFlow：自分視点（エゴセントリック）6DoF物体運動生成のための勾配誘導フローマッチング

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

EgoFlowは、自分視点の動画から物理的に妥当な6DoF物体運動の軌跡を生成するための新しいフローマッチング手法であり、先行する生成モデルの課題であった遮蔽、急激な動き、弱い物理的推論に対処します。
この手法は、マルチモーダルな自分視点観測から得られるシーンの幾何情報とセマンティックな意図を、時間的ダイナミクスのモデリングとともに扱うために、ハイブリッドなMamba-Transformer-Perceiverアーキテクチャを用います。
EgoFlowは、生成中に微分可能な物理制約（例：衝突回避や運動の滑らかさ）を強制する勾配誘導型推論を導入し、事後処理のフィルタリングや追加の教師データを必要としません。
HD-EPIC、EgoExo4D、HOT3Dでの実験では、拡散モデルやトランスフォーマーベースのベースラインと比較して、精度、汎化性能、そして物理的な自然さが向上したことが報告されており、衝突率の最大79%削減を含みます。
本研究は、フローに基づく生成モデリングがスケール可能であり、自分視点の身体化された知覚タスクに対して物理的に根拠づけられた運動理解を提供できることを示唆しています。

要旨: 腋視点（egocentric）動画から物体の運動を理解し予測することは、身体化された知覚と相互作用にとって基礎となる。しかし、既存の生成モデルには明示的な物理的推論が欠けていることに加え、遮蔽（occlusion）や高速な運動によって、物理的に整合した6DoF軌道を生成することは依然として困難である。そこで我々は、マルチモーダルな腋視点観測に条件付けて、現実的かつ物理的に妥当な軌道を合成するフローマッチング（flow-matching）枠組みであるEgoFlowを提示する。EgoFlowは、時間ダイナミクス、シーンの幾何、そして意味的意図を共同でモデル化するために、ハイブリッドなMamba-Transformer-Perceiverアーキテクチャを採用している。さらに、勾配に導かれた推論プロセスにより、衝突回避や運動の滑らかさといった微分可能な物理制約を強制する。この組み合わせにより、事後的なフィルタリングや追加の教師なしで、首尾一貫した制御可能な運動生成が実現される。実世界データセットHD-EPIC、EgoExo4D、HOT3Dでの実験では、EgoFlowが精度、汎化性能、物理的現実性の面で拡散（diffusion）ベースおよびトランスフォーマ基線を上回り、衝突率を最大79%低減し、さらに未見のシーンへの強い汎化を示した。これらの結果は、スケーラブルで物理的に根拠づけられた腋視点の運動理解のための、フロー（flow）ベース生成モデリングの有望さを示している。