MoCapAnything V2:任意スケルトンに対応したエンドツーエンドモーションキャプチャ
arXiv cs.CV / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- MoCapAnything V2は、従来の「ビデオ→ポーズ」+非微分可能なIK(逆運動学)による分割パイプラインをやめ、両段階を共同で学習する初のエンドツーエンド型フレームワークを提案しています。
- 同論文は、ポーズから回転への対応が曖昧になる主因として、回転を定める座標系情報の欠落を指摘しています。同じ関節位置でも、レストポーズやローカル軸の取り方が異なると異なる回転を意味し得るためです。
- これを解決するために、ターゲットアセットから参照ポーズ–回転ペアを導入し、写像の固定だけでなく回転座標系そのものも定義します。その結果、回転予測を学習可能な条件付きのよく制約された問題として扱えるようにしています。
- モデルは、メッシュ中間表現に依存せずビデオから直接関節位置を予測し、さらに骨格に配慮したGlobal-Local Graph-guided Multi-Head Attention(GL-GMHA)を共通して用いて、グローバルな協調とローカルな推論を両立しています。
- Truebones ZooとObjaverseでの実験では、回転誤差が約17度から約10度へ改善し、未知のスケルトンでは6.54度まで低下するとともに、メッシュベースのパイプラインに比べて推論が約20倍高速化したと報告されています。




