閉塞に頑健な3D人体メッシュ復元のための識別・生成の相乗(Discriminative-Generative Synergy)

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、部分的または深刻な隠れ(オクルージョン)下での単眼RGBからの3D人体メッシュ復元を扱い、回帰ベース手法の不正確さや、生成優先の拡散モデルによる希少ポーズでの忠実度低下といった課題に取り組みます。
  • 提案手法は、見えている領域から決定論的な視覚手がかりを抽出するViTベースの識別経路と、隠れ領域に対して構造的に一貫した人体表現を生成する条件付き拡散経路を統合する「脳に着想した相乗フレームワーク」です。
  • 2つの経路を効果的に橋渡しするために、識別特徴と拡散の事前(プライオリ)を整合させる「多様-一貫性特徴学習モジュール」を設計しています。
  • さらに、意味レベル間で双方向の相互作用を可能にする「クロスアテンションによる多段階(マルチレベル)融合機構」により、全体の整合性と精度を高めます。
  • 標準ベンチマークでの実験では主要指標での優れた性能と、複雑な実環境での頑健性が示されると報告されています。

Abstract

単眼のRGB画像からの3D人体メッシュ復元は、下流タスク向けに解剖学的に妥当な3D人体モデルを推定することを目指しますが、部分的または深刻な遮蔽下では依然として困難です。回帰ベースの手法は効率的ですが、制約のない状況ではしばしば不自然あるいは不正確な結果を生成します。一方、拡散(ディフュージョン)ベースの手法は遮蔽領域に対して強力な生成的事前知識を提供しますが、生成に過度に依存することで、まれな姿勢への忠実度が損なわれる可能性があります。これらの制約に対処するために、本論文では、視覚トランスフォーマーの識別能力と条件付き拡散モデルの生成能力を統合する、脳に着想を得た相乗的フレームワークを提案します。具体的には、ViTベースの経路が可視領域から決定論的な視覚的手がかりを抽出し、拡散ベースの経路が構造的に整合した人体表現を合成します。2つの経路を効果的に橋渡しするために、識別的特徴を生成的事前知識に整合させるための、多様性整合(diverse-consistent)な特徴学習モジュールを設計し、意味レベル間で双方向の相互作用を可能にするクロスアテンションのマルチレベル融合機構を導入します。標準ベンチマークでの実験により、本手法は主要な指標において優れた性能を達成し、複雑な実世界シナリオにおいて強い頑健性を示すことが確認されました。