GRAFT:幾何学的リファインメントとフィッティング・トランスフォーマーによる人体シーン再構成
arXiv cs.CV / 2026/4/22
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、単一画像から3Dの人体–シーン相互作用を物理的にもっともらしく再構成するための、トランスフォーマー型手法GRAFTを提案し、従来の「速度と相互作用推論のトレードオフ」を解決することを目指しています。
- GRAFTは、遅い最適化の代わりに、幾何に基づく人体–シーン適合を高速なフィードフォワード推論へと「償却」し、人体メッシュを3D上の関係性に基づいて反復的に補正する「interaction gradients」を予測します。
- 身体に基づいたコンパクトなトークンで相互作用状態を表現し、近傍表面との空間関係を捉える「geometric probes」によりシーン幾何に根拠づけます。
- GRAFTは、画像特徴からエンドツーエンドで動作するだけでなく、幾何のみを入力とする“プラグアンドプレイ”なHSI事前学習(prior)としても利用でき、他のフィードフォワード手法を再学習なしで改善します。
- 実験では、既存の最先端フィードフォワード手法に比べ相互作用品質が最大113%向上し、最適化ベースの品質と比べて実行時間は約50倍低いと報告されており、複数人の「in-the-wild」シーンにも強く汎化するとされています。




