FF3R:非制約ビューからのフィードフォワード特徴に基づく3D再構成

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、注釈を一切必要としない完全なフィードフォワード型フレームワークFF3Rを提案し、非制約な複数ビュー画像シーケンスからの3D再構成において、幾何学的推論と意味論的推論を統一的に扱う。
  • FF3Rは、RGBおよび特徴マップに対するレンダリング監督のみを用いることで、カメラポーズ、深度マップ、意味ラベルの必要性をなくし、冗長なパイプラインや誤差の累積を削減することを目指す。
  • トークン単位の融合モジュール(クロスアテンションにより幾何トークンへ意味文脈を付与)と、意味-幾何相互ブースティング(幾何に導かれた特徴ワーピングに加え、意味を考慮したボクセル化)によって、グローバルな意味の不整合およびローカルな構造の不整合に対処する。
  • ScanNetおよびDL3DV-10Kでの実験により、新規ビュー合成、オープン語彙意味セグメンテーション、深度推定の各タスクで改善が報告されており、in-the-wildシナリオへの強い汎化性能が示される。

概要: 近年の視覚基盤モデルの発展は、幾何再構成とセマンティック理解に革命をもたらしました。しかし、既存のほとんどのアプローチはこれらの能力を個別に扱っているため、冗長なパイプラインや誤りの増幅につながっています。本論文では、制約のない多視点画像シーケンスから幾何推論とセマンティック推論を統合する、完全に注釈不要なフィードフォワードフレームワーク FF3R を提案します。従来手法とは異なり、FF3R はカメラ姿勢、深度マップ、セマンティックラベルを必要とせず、RGBと特徴マップに対するレンダリングの監督のみを用います。これにより、統合3D推論のためのスケーラブルなパラダイムを確立します。さらに、フィードフォワード特徴再構成パイプラインにおける2つの重要な課題、すなわちグローバルなセマンティックの不整合とローカルな構造の不整合に対して、2つの主要な革新を通じて対処します:(i) クロスアテンションによって幾何トークンにセマンティック文脈を付与するトークンごとの融合モジュール、(ii) グローバルな一貫性のための幾何ガイド付き特徴ワーピングと、局所的な整合性のためのセマンティックに配慮したボクセル化を組み合わせる、セマンティック・幾何の相互ブースティング機構。ScanNet および DL3DV-10K 上での広範な実験により、FF3R が新規視点合成、オープンボキャブラリ意味セグメンテーション、深度推定において優れた性能を示すことが実証されました。また、in-the-wild(実環境)シナリオへの強い汎化性を備えており、空間理解とセマンティック理解の両方を必要とする身体性のあるインテリジェンスシステムへの道を切り拓きます。