AI Navigate

単一パスでの多人数・多視点ビデオからの人間-シーンの一貫した再構成

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

要点

  • CHROMM は、外部前処理を必要とせず、単一の学習可能なモデルで、複数人・多視点ビデオからカメラ、シーン点群、人体メッシュを再構成する統一的なエンドツーエンドフレームワークです。
  • Pi3X および Multi-HMR からの事前情報を統合し、人間のスケールをシーンに合わせるためのスケール調整モジュールを追加し、推論時の集約には多視点融合戦略を採用します。
  • 本手法は、外観に基づく手法よりも頑健な、幾何学ベースの多人数アソシエーションを導入します。
  • グローバルモーション推定および多視点姿勢推定で競争力のある結果を達成し、従来の最適化ベースの多視点手法より8倍以上高速に動作することを、EMDB、RICH、EgoHumans、EgoExo4Dで実証しています。
  • 詳細については、プロジェクトページを参照してください。

要旨: 3D基盤モデルの最近の進歩は、人間とその周囲の環境を再構成することへの関心を高めています。
しかし、ほとんどの既存アプローチは単眼入力に焦点を当てており、それらを多視点設定へ拡張するには追加のオーバーヘッドモジュールや事前処理データが必要です。
この目的のために、外部モジュールや前処理に依存せず、複数人の多視点動画からカメラ、シーンの点群、人体のメッシュを共同推定する統一フレームワーク CHROMM を提案します。
Pi3XとMulti-HMRからの強力な幾何学的および人体の事前情報を、1つの学習可能なニューラルネットワークアーキテクチャに統合し、人体とシーンのスケール差を解消するためのスケール調整モジュールを導入します。
また、推論時に各ビューの推定値を単一の表現に統合する多視点融合戦略を導入します。
最後に、幾何学に基づく多人数の関連付け手法を提案します。外見ベースのアプローチよりも頑健です。
EMDB、RICH、EgoHumans、EgoExo4Dでの実験は、CHROMM が全身のモーション推定および多視点姿勢推定において競争力のある性能を発揮し、従来の最適化ベースの多視点アプローチよりも8倍以上高速に動作することを示しています。
プロジェクトページ: https://nstar1125.github.io/chromm.