GHOST: Gaussian Splattingを用いたRGB動画からのカテゴリ非依存の手-物体相互作用再構成を高速化

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

要点

  • GHOSTは、Gaussian Splattingを用いて手と物体を密な2Dガウスディスクとして表現することで、単眼RGB動画から動的な手-物体相互作用を高速に再構成する、カテゴリ非依存のフレームワークである。
  • 幾何学的事前情報を用いた照合と一貫性損失を導入し、遮蔽された物体領域を補完する。
  • 把持を意識したアライメントが、手の平移と物体スケールを現実的な接触になるように洗練する。
  • 手を意識した背景損失により、手によって遮蔽された物体領域を罰しないようにする。
  • 完全で物理的に一貫し、かつアニメーション可能な再構成を実現し、従来のカテゴリ非依存手法より約10倍速く動作する。ARCTIC、HO3D、および実世界データセットで、3D再構成と2Dレンダリング品質の最先端を達成している。
  • コードはGitHubで公開されています。

Abstract

単眼RGB動画からの現実的な手と物体の相互作用を理解することは、AR/VR、ロボティクス、身体化AIにとって不可欠です。既存の手法はカテゴリ特有のテンプレートや高い計算量に依存しており、それでも3D空間で手と物体の整合性が物理的に一貫していないケースを生み出します。我々はGHOST(Gaussian Hand-Object Splatting)を紹介します。これは2Dガウシアンスプラッティングを用いて動的な手と物体の相互作用を再構成する、快速でカテゴリに依存しないフレームワークです。GHOSTは手と物体の両方を密で視点整合的なガウシアンディスクとして表現し、以下の三つの主要な革新を導入します: (1) 遮蔽された物体領域を補完する幾何学的事前情報の検索と整合性損失、(2) 現実的な接触を保証するために手の平移と物体スケールを洗練させる把握認識に基づく整合性、(3) 手を意識した背景損失により手に遮蔽された物体領域をペナルティの対象にしない。GHOSTは単一のRGB動画から完全で物理的に一貫し、かつアニメーション可能な再構成を実現し、従来のカテゴリ非特異的手法より約10倍の高速で動作します。ARCTIC、HO3D、および野外データセットを用いた広範な実験は、3D再構成と2Dレンダリング品質において最先端の精度を示し、現実的な手と物体の相互作用モデリングにおける効率的で堅牢な解決策としてGHOSTを確立します。コードは https://github.com/ATAboukhadra/GHOST に公開されています。