MoCapAnything V2:任意スケルトンに対応したエンドツーエンドモーションキャプチャ

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • MoCapAnything V2は、従来の「ビデオ→ポーズ」+非微分可能なIK(逆運動学)による分割パイプラインをやめ、両段階を共同で学習する初のエンドツーエンド型フレームワークを提案しています。
  • 同論文は、ポーズから回転への対応が曖昧になる主因として、回転を定める座標系情報の欠落を指摘しています。同じ関節位置でも、レストポーズやローカル軸の取り方が異なると異なる回転を意味し得るためです。
  • これを解決するために、ターゲットアセットから参照ポーズ–回転ペアを導入し、写像の固定だけでなく回転座標系そのものも定義します。その結果、回転予測を学習可能な条件付きのよく制約された問題として扱えるようにしています。
  • モデルは、メッシュ中間表現に依存せずビデオから直接関節位置を予測し、さらに骨格に配慮したGlobal-Local Graph-guided Multi-Head Attention(GL-GMHA)を共通して用いて、グローバルな協調とローカルな推論を両立しています。
  • Truebones ZooとObjaverseでの実験では、回転誤差が約17度から約10度へ改善し、未知のスケルトンでは6.54度まで低下するとともに、メッシュベースのパイプラインに比べて推論が約20倍高速化したと報告されています。

Abstract

単眼動画から任意スケルトンのモーションキャプチャを行うための最近の手法は、因数分解されたパイプラインに従っており、Video-to-Poseネットワークが関節位置を予測し、解析的逆運動学(IK)段階が関節回転を復元します。効果的ではあるものの、この設計は本質的に制約があります。関節位置だけでは回転を完全に決定できず、骨軸のツイストのような自由度が曖昧なままとなるためです。また、微分不可能なIK段階により、システムがノイズを含む予測に適応したり、最終的なアニメーション目的に対して最適化したりすることができません。本研究では、Video-to-PoseとPose-to-Rotationの両方を学習可能で、かつ共同最適化する、初の完全なエンドツーエンドフレームワークを提示します。ポーズから回転への対応付けにおける曖昧さは、座標系情報の欠落に起因することを観察します。同じ関節位置でも、異なるレストポーズやローカル軸の取り決めの下では、異なる回転に対応し得るのです。この問題を解決するために、ターゲットアセットから参照ポーズと参照回転のペアを導入します。これにより、レストポーズと合わせて、対応付けを固定するだけでなく、回転の基盤となる座標系も定義できます。この定式化により、回転予測は適切に制約された条件付き問題となり、効果的な学習が可能になります。さらに、当社のモデルは、メッシュの中間表現に依存せずに動画から直接関節位置を予測します。これにより、頑健性と効率の両方が向上します。両段階は、関節レベルのローカル推論とグローバルな協調のための、スケルトン対応のGlobal-Local Graphガイド付きMulti-Head Attention(GL-GMHA)モジュールを共有します。Truebones ZooおよびObjaverseでの実験では、提案手法により回転誤差が約17度から約10度に低減され、未知のスケルトンでは6.54度まで改善することを示します。さらに、メッシュベースのパイプラインに比べて約20倍高速な推論を達成しています。プロジェクトページ: https://animotionlab.github.io/MoCapAnythingV2/