dinov3.seg: DINOv3バックボーンを採用したオープンボキャブラリ型セマンティックセグメンテーション
arXiv cs.AI / 2026/3/23
💬 オピニオンModels & Research
要点
- 本論文は dinov3.seg を紹介します。DINOv3 バックボーンを基盤とし、オープンセットのテキスト定義カテゴリに対処する Open-Vocabulary Semantic Segmentation (OVSS) 専用フレームワークです。
- テキスト埋め込みを、グローバルな CLS トークンと局所的なパッチレベルの視覚特徴の双方と共同で整列させることで、強力な意味的識別性と微細な空間局在性を両立させます。
- 画像-テキスト相互作用に先立って視覚表現の早期リファインメントを行い、得られた画像-テキスト相関特徴の後期リファインメントを行うことで、混雑したシーンにおける密な予測を改善します。
- スライディングウィンドウ集約に基づく高解像度の局所-グローバル推論戦略は、空間的ディテールを保持しつつグローバルな文脈を維持します。5つの OVSS ベンチマークでの実験は、最先端手法を一貫して上回る改善を示しました。

