広告

GraphiContact:インタラクティブシステムのための、姿勢に応じた頑健な人-シーン接触認識

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • GraphiContactは、単眼かつ頂点レベルの人-シーン接触予測に取り組み、接触推論の幾何学的足場として単一画像からの3D人体メッシュ再構成を共同で活用する。
  • この手法は姿勢に応じており、2つの事前学習済みTransformerエンコーダから相補的な人体の事前知識(ヒューマン・プライア)を転移して、再構成メッシュ上の頂点ごとの接触を予測する。
  • 隠れ(オクルージョン)や知覚ノイズに対処するため、GraphiContactは、難しい現実環境での観測を模擬しつつ、テスト時には効率的な単一分岐推論を維持するトークンレベルの適応ルーティングを備えたSIMU訓練を導入する。
  • 5つのベンチマークデータセットにまたがる実験により、接触予測と3D人体再構成の両方で一貫した改善が報告されており、このアプローチがエンドツーエンドで相互作用理解を向上させることが示唆される。
  • 著者らはコード(公開を予定)を提供しており、支援モニタリング、身体性のあるAI(embodied AI)、リハビリテーション解析といったインタラクティブなアプリケーションに向けてシステムを位置付けている。

要旨: 単眼の頂点レベルにおける人とシーンの接触(contact)予測は、補助的モニタリング、身体性を持つAI、リハビリテーション分析といった対話型システムにとっての基盤的な能力である。本研究では、この課題を単一画像に基づく3D人体メッシュ復元と共同で検討する。再構成された身体幾何を、接触推論のための足場(scaffold)として用いる。既存手法は、明示的な3D人体の事前知識(prior)を十分に活用せずに接触予測に焦点を当てるか、あるいは、遮蔽や知覚的ノイズのもとで頂点レベルの堅牢な接触推論を直接最適化することなしに、姿勢/メッシュ復元を重視している。そこで、このギャップを埋めるために、本研究では GraphiContact を提案する。これは、2つの事前学習済みトランスフォーマーエンコーダから補完的な人体の事前知識を転送し、復元されたメッシュ上で頂点ごとの人—シーン接触を予測する、姿勢認識(pose-aware)型の枠組みである。現実のシナリオにおける頑健性をさらに高めるために、単一画像マルチ推論不確実性(Single-Image Multi-Infer Uncertainty: SIMU)の学習戦略を導入する。これはトークンレベルの適応的ルーティングにより、学習中に遮蔽やノイズを含む観測をシミュレートしつつ、テスト時には効率的な単一分岐(single-branch)推論を維持する。5つのベンチマークデータセットでの実験の結果、GraphiContact は接触予測と3D人体復元の両方において一貫した改善を達成する。本手法(GraphiContact)に基づくコードは、包括的な3D人体復元および相互作用分析を提供し、https://github.com/Aveiro-Lin/GraphiContact にて公開予定である。

広告