不確実性を考慮した事前情報を備える、頑健な4Dビジュアルジオメトリトランスフォーマー

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「頑健な4Dビジュアルジオメトリトランスフォーマー」により、動的4Dシーンを再構成するために、動きの影響と静的/意味的な曖昧さを明示的に分離することを提案する。
  • エントロピーに導かれた部分空間射影、不確実性に基づく局所的な空間整合性によるジオメトリの浄化、異分散最大尤度(heteroscedastic maximum likelihood)を用いた不確実性重み付きのマルチビュー整合性といった、不確実性を考慮した構成要素を導入する。
  • 深度の確信度を確率的な重みとしてマルチビューのリファインメントに組み込むことで、動きに起因する幾何学的不確実性に対処しやすくする。
  • 動的ベンチマークでの実験では、既存の最先端手法に比べて大幅な改善が報告されており、Mean Accuracy誤差が13.43%減少し、セグメンテーションのF-measureが10.49%向上した。
  • このアプローチは、フィードフォワードによる推論効率を維持し、タスク固有の微調整やシーンごとの最適化を回避するよう設計されている。

要旨: 動的な4Dシーンを復元することは重要である一方、困難な課題です。VGGTのような3D基盤モデルは静的な設定では優れた性能を発揮しますが、運動が大きな幾何学的不確定性を引き起こす動的シーケンスではしばしば苦戦します。これに対処するために、本研究では、復元プロセスの異なる段階において不確実性をモデル化することで、動的成分と静的成分を分解することを目的としたフレームワークを提案します。提案手法は、3つの相乗的なメカニズムを導入します: (1) エントロピー誘導サブスペース投影。情報理論に基づく重み付けを用いてマルチヘッド注意分布を適応的に集約し、意味的なノイズから動的な運動の手掛かりを効果的に分離します。 (2) 局所整合性に基づくジオメトリ精製。半径ベースの近傍制約により空間的な連続性を強制し、構造的な外れ値を除去します。 (3) 不確実性を意識したビュー間整合性。多視点投影の洗練を、ヘテロスケダスティックな最大尤度推定問題として定式化し、深度の信頼度を確率的重みとして利用します。動的ベンチマークでの実験では、本手法が既存の最先端手法を上回り、Mean Accuracy誤差を13.43\%低減し、セグメンテーションF-measureを10.49\%向上させます。本フレームワークはフィードフォワード推論の効率を維持し、タスク固有の微調整やシーンごとの最適化を必要としません。