VGGT-Segmentor: ジオメトリ強化クロスビュー・セグメンテーション
arXiv cs.CV / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己視点(egocentric)画像と外部視点(exocentric)画像にまたがるインスタンスレベルのクロスビュー・セグメンテーションのための、ジオメトリ強化フレームワークであるVGGT-Segmentor(VGGT-S)を提案する。
- VGGTのようなジオメトリ対応型の既存手法は、画素レベルでの射影ドリフトによって緻密な予測が劣化し得ると主張しており、画素精度のマスクのためのユニオン・セグメンテーション・ヘッドの導入を動機づけている。
- VGGT-Sは、頑健なクロスビュー特徴アライメントを正確なセグメンテーション出力へ変換するために、3段階のユニオン・セグメンテーション・ヘッド(マスク・プロンプト融合、点ガイドによる予測、反復的なマスク精緻化)を用いる。
- 対応付けられたアノテーションを必要としない単一画像の自己教師あり学習アプローチを提案しつつ、強い汎化性能を維持する。
- Ego-Exo4Dベンチマークにおいて、VGGT-Sは平均IoUで新たな最先端結果として67.7%(Ego→Exo)および68.0%(Exo→Ego)を報告しており、対応関係なしの事前学習が多くの完全教師ありベースラインを上回る。




