概要: 3D人間ポーズ推定は、ヘルスケアのモニタリング、人とロボットの協調、没入型ゲームなどのアプリケーションを実現するための重要な基盤技術ですが、実環境での導入は視点の変化によって依然として難しい状況にあります。既存手法は、未見のカメラ視点に対して汎化することが難しく、大量の学習データを必要とし、推論の遅延が大きいという問題があります。本研究では、視点不変な3D人間ポーズ推定フレームワークであるMoViDを提案します。MoViDは、視点情報をモーション特徴から切り離します。主要なアイデアは、中間ポーズ特徴から視点情報を抽出し、それを用いてポーズ推定の頑健性と効率の両方を高めることです。MoViDは、主要関節間の関係をモデル化して視点情報を予測するビュー推定器と、モーション特徴とビュー特徴を切り離す直交射影モジュールを導入し、さらに視点間での物理に基づくコントラストアラインメントによって性能を強化します。リアルタイムのエッジ環境への展開のため、MoViDは推定された視点に基づいてフリップによるリファインメントを適応的に有効化する、視点認識戦略付きのフレームごとの推論パイプラインを採用します。9つの公開データセットおよび新たに収集したマルチビューUAVと歩行(gait)解析データセットでの評価により、MoViDは最先端手法と比べてポーズ推定誤差を24.2\%超低減し、60\%少ない学習データで重度の遮蔽下でも頑健な性能を維持し、NVIDIAのエッジデバイス上で15 FPSのリアルタイム推論を達成することが示されています。
MoViD:モーション・ビュー分離によるビュー不変な3D人体姿勢推定
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsModels & Research
要点
- MoViDは、視点情報とモーション特徴を分離することで、未知のカメラ角度への汎化性を高める、ビュー不変な3D人体姿勢推定のための新しいフレームワークである。
- これは、(主要な関節関係に基づく)専用の視点推定器と直交射影モジュールを用いて、ビュー表現とモーション表現を分離し、さらにビュー間にまたがる物理に基づいたコントラスト整合によって強化する。
- リアルタイムのエッジ展開に向けた効率化のため、MoViDはフレームごとの推論パイプラインと、推定された視点に応じてフリップによるリファインメントを動的に有効化するビュー認識戦略を採用する。
- 9つの公開データセットおよび新たに収集したマルチビューUAVと歩行(gait)データセットでの実験では、最先端手法に比べて姿勢誤差が24.2%以上低いこと、訓練データを60%削減しつつ重度の遮蔽下でも頑健であること、そしてNVIDIAのエッジデバイス上で15 FPSのリアルタイム性能が報告されている。




