HGGT:較正されていない画像から堅牢かつ柔軟な3D手メッシュを復元する

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、較正済みのカメラ設定を必要とせずに導入の柔軟性を目指しつつ、画像から高精細な3D手メッシュを復元することに取り組む。
  • 単一視点手法(深度の曖昧さや遮蔽に苦しむ)と、多視点の較正済みシステム(現実世界での利用可能性が低い)とのトレードオフに対処する。
  • 著者らは、較正されていない任意の視点から、3D手メッシュとカメラ姿勢を同時に推定するフィードフォワード型アーキテクチャを提案する。
  • 本手法は、視覚データから明示的な幾何を学習する3D基盤モデルの考え方に動機づけられており、復元を視覚に基づく幾何学的タスクとして再定式化している。
  • 実験では、ベンチマークにおける最先端の性能と、較正されていない「その場(in-the-wild)」シナリオへの強い汎化性が報告されており、公的なプロジェクトページも提供されている。

要旨: 画像から高精細な3Dハンド形状を復元することは、コンピュータビジョンにおける重要な課題であり、ロボティクス、アニメーション、VR/ARといった領域において大きな価値を持ちます。重要なのは、スケーラブルなアプリケーションでは、精度と導入の柔軟性の両方が求められることであり、インターネット上の大規模で非構造化な画像データを活用できること、または複雑なキャリブレーションなしに一般向けのRGBカメラへ導入できることが必要になります。しかし、現行の手法にはジレンマがあります。単眼(単一視点)のアプローチは導入が容易ですが、奥行きの曖昧さや遮蔽(オクルージョン)に悩まされます。一方、複数視点システムはこれらの不確実性を解消できますが、通常は固定されたキャリブレーション済みのセットアップを要求し、そのため現実世界での有用性が制限されます。このギャップを埋めるために、私たちは、視覚データから明示的な幾何を直接学習する3D基盤モデルに着想を得ました。任意の視点からのハンド再構成を、視覚・幾何に基づくタスクとして言い換えることで、我々は、文献中で初めて、キャリブレーションされていない視点から3Dハンドメッシュとカメラ姿勢を同時に推定するフィードフォワード型のアーキテクチャを提案します。大規模な評価により、提案手法が最新のベンチマークよりも優れた性能を示し、さらにキャリブレーションなしの「現場で撮影された」シナリオに対して強い汎化能力を発揮することが確認されました。こちらがプロジェクトページへのリンクです: https://lym29.github.io/HGGT/