VGGT-HPE:頭部姿勢推定を相対姿勢予測として再構成する

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、単眼の頭部姿勢推定は、絶対姿勢を予測する形から、2つの頭部姿勢間の相対的な剛体変換を予測する形へと作り替えることで、より頑健になると主張する。
  • 一般目的のジオメトリ基盤モデルをベースにし、合成した顔レンダリングのみによって微調整することで、暗黙的なカノニカル基準フレームへの依存を避けた、相対頭部姿勢推定器であるVGGT-HPEを提案する。
  • 推論時には既知の姿勢アンカーを用いる。このアンカーはユーザーが選択でき(例:ほぼニュートラルな姿勢、または時間的に隣接するフレーム)、予測の難しさを調整できる。
  • 実世界データによる学習をゼロとしながらも、VGGT-HPEはBIWIベンチマークで最先端の性能を報告しており、混合/実データで学習した絶対回帰アプローチを上回る。
  • 容易な姿勢ペアと困難な姿勢ペアに関する制御実験により、「相対予測のほうが絶対回帰より本質的に正確である」という仮説を検証し、姿勢の難しさが増すほど得られる改善が大きくなることを示す。

概要: 単眼ヘッドポーズ推定は、伝統的には単一画像から絶対姿勢への直接回帰として定式化されてきました。このパラダイムでは、ネットワークが暗黙にデータセット固有の基準フレームを内在化することが強いられます。本研究では、観測された2つの頭部姿勢構成間の相対的な剛体変換を予測することが、根本的により容易で、より頑健な定式化であると主張します。私たちは、汎用的なジオメトリ基盤モデルに基づいて構築された、相対ヘッドポーズ推定器であるVGGT-HPEを提案します。合成された顔のレンダリングのみに対して独占的に微調整することで、既知の姿勢をもつ明示的に与えられたアンカーから幾何学的変位を推定するという形に問題を落とし込み、暗黙のアンカーを必要としません。実務上の利点として、相対的な定式化により、アンカーをテスト時に選択できるようにもなります。例えば、ほぼ中立のフレームや時間的に隣接するフレームを選ぶことで、予測の難しさをアプリケーションに応じて制御できます。現実世界の学習データをゼロとしても、VGGT-HPEはBIWIベンチマークで最先端の結果を達成し、混合および実データで学習された確立済みの絶対回帰手法を上回ります。さらに、制御された「易しい/難しいペア」のベンチマークを通じて、私たちは中核となる仮説を体系的に検証します。すなわち、相対予測は絶対回帰よりも本質的に正確であり、その利点はターゲット姿勢の難しさに応じてスケールする、ということです。プロジェクトページとコード: https://vasilikivas.github.io/VGGT-HPE