VGGT-Segmentor: ジオメトリ強化クロスビュー・セグメンテーション

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自己視点(egocentric)画像と外部視点(exocentric)画像にまたがるインスタンスレベルのクロスビュー・セグメンテーションのための、ジオメトリ強化フレームワークであるVGGT-Segmentor(VGGT-S)を提案する。
  • VGGTのようなジオメトリ対応型の既存手法は、画素レベルでの射影ドリフトによって緻密な予測が劣化し得ると主張しており、画素精度のマスクのためのユニオン・セグメンテーション・ヘッドの導入を動機づけている。
  • VGGT-Sは、頑健なクロスビュー特徴アライメントを正確なセグメンテーション出力へ変換するために、3段階のユニオン・セグメンテーション・ヘッド(マスク・プロンプト融合、点ガイドによる予測、反復的なマスク精緻化)を用いる。
  • 対応付けられたアノテーションを必要としない単一画像の自己教師あり学習アプローチを提案しつつ、強い汎化性能を維持する。
  • Ego-Exo4Dベンチマークにおいて、VGGT-Sは平均IoUで新たな最先端結果として67.7%(Ego→Exo)および68.0%(Exo→Ego)を報告しており、対応関係なしの事前学習が多くの完全教師ありベースラインを上回る。

Abstract

異なるエゴセントリック視点とエキソセントリック視点にまたがる、インスタンスレベルのオブジェクトセグメンテーションは、視覚理解における根本的な課題であり、身体性のあるAIや遠隔協働のためのアプリケーションにとって重要です。このタスクは、スケール、パースペクティブ、オクルージョンに対する著しい変化が原因で、直接的なピクセルレベルの対応付けが不安定になるため、特に困難です。VGGTのような幾何学を意識したモデルは特徴のアラインメントに強い基盤を提供しますが、内部のオブジェクトレベルの整合性(textntion)が一貫しているとしても、重要なピクセルレベルの投影ドリフトのために、密な予測タスクでは失敗することが多いことを私たちは見出しました。このギャップを埋めるために、堅牢な幾何学的モデリングとピクセル精度のセマンティックセグメンテーションを統一するフレームワークであるVGGT-Segmentor(VGGT-S)を提案します。VGGT-SはVGGTの強力なクロスビュー特徴表現を活用し、新しいUnion Segmentation Headを導入します。このヘッドは3段階で動作します:マスクプロンプト融合、ポイント誘導による予測、反復的なマスク洗練(refinement)です。これにより、高レベルの特徴アラインメントを精密なセグメンテーションマスクへと効果的に変換します。さらに、ペアとなるアノテーションを不要にする単一画像の自己教師あり学習戦略を提案し、強い汎化性能を可能にします。Ego-Exo4Dベンチマークにおいて、VGGT-Sは新たな最先端を達成し、EgoからExoタスクおよびExoからEgoタスクそれぞれで平均IoU 67.7%および68.0%を実現しました。これは先行手法を大幅に上回ります。特筆すべき点として、対応関係(correspondence)を必要としない事前学習済みモデルが、ほとんどの完全教師ありのベースラインを上回っており、提案アプローチの有効性とスケーラビリティを示しています。