SegVGGT: マルチビュー画像からの共同3D再構成とインスタンスセグメンテーション

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

要点

  • SegVGGTは、マルチビューRGB画像から直接、順伝播的に3D再構成とインスタンスセグメンテーションを共同で推論する統合的なエンドツーエンドフレームワークを提案する。
  • それは、多階層の幾何特徴と相互作用するオブジェクトクエリを活用し、インスタンス識別を視覚ジオメトリに基づくトランスフォーマーへ組み込む。
  • Frame-level Attention Distribution Alignment (FADA)戦略は、訓練時にオブジェクトクエリがインスタンス関連フレームに注意を向けるよう導き、推論コストを増やすことなくアテンション分布のばらつきを低減する。
  • 本手法は ScanNetv2 および ScanNet200 で最先端の性能を達成し、ScanNet++ でも強い一般化能力を示す。
  • RGBのみの入力で共同再構成とセグメンテーションを実現することで、SegVGGTは高品質な点群や分離された処理パイプラインへの依存を低減する。

概要: 3Dインスタンス分割手法は通常、高品質の点群やポーズ付きRGB-Dスキャンに依存し、複雑な多段処理パイプラインを必要とし、再構成ノイズに非常に敏感である。

一方、最近のフィードフォワード型トランスフォーマはマルチビュー3D再構築に革新をもたらしているが、それらは高レベルの意味理解からは切り離されたままである。

本研究では SegVGGT を提案します。SegVGGT は、マルチビュー RGB 画像から直接、フィードフォワード型の3D再構築とインスタンス分割を同時に実行する、統合されたエンドツーエンドのフレームワークです。

多段階の幾何特徴と相互作用するオブジェクトクエリを導入することにより、私たちの手法はインスタンス識別を視覚幾何学に基づくトランスフォーマーへ深く統合します。

グローバル画像トークンの膨大な数が原因となる深刻なアテンション分散問題に対処するため、フレームレベルのアテンション分布整合化(FADA)戦略を提案します。

FADA は、トレーニング時にオブジェクトクエリがインスタンス関連のフレームに注意を払うように明示的に導き、追加の推論オーバーヘッドを伴わずに構造化された監督を提供します。

豊富な実験により、SegVGGT は ScanNetv2 および ScanNet200 において最先端の性能を達成し、最近のジョイントモデルや RGB-D ベースのアプローチを上回るとともに、ScanNet++ においても強い一般化能力を示します。

返却形式: {"translated": "翻訳されたHTML"}