GRAFT：幾何学的リファインメントとフィッティング・トランスフォーマーによる人体シーン再構成

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、単一画像から3Dの人体–シーン相互作用を物理的にもっともらしく再構成するための、トランスフォーマー型手法GRAFTを提案し、従来の「速度と相互作用推論のトレードオフ」を解決することを目指しています。
GRAFTは、遅い最適化の代わりに、幾何に基づく人体–シーン適合を高速なフィードフォワード推論へと「償却」し、人体メッシュを3D上の関係性に基づいて反復的に補正する「interaction gradients」を予測します。
身体に基づいたコンパクトなトークンで相互作用状態を表現し、近傍表面との空間関係を捉える「geometric probes」によりシーン幾何に根拠づけます。
GRAFTは、画像特徴からエンドツーエンドで動作するだけでなく、幾何のみを入力とする“プラグアンドプレイ”なHSI事前学習（prior）としても利用でき、他のフィードフォワード手法を再学習なしで改善します。
実験では、既存の最先端フィードフォワード手法に比べ相互作用品質が最大113%向上し、最適化ベースの品質と比べて実行時間は約50倍低いと報告されており、複数人の「in-the-wild」シーンにも強く汎化するとされています。

AI Business

日経XTECH

AI-SCHOLAR

Dev.to

Dev.to