dinov3.seg: DINOv3バックボーンを採用したオープンボキャブラリ型セマンティックセグメンテーション

arXiv cs.AI / 2026/3/23

💬 オピニオンModels & Research

要点

  • 本論文は dinov3.seg を紹介します。DINOv3 バックボーンを基盤とし、オープンセットのテキスト定義カテゴリに対処する Open-Vocabulary Semantic Segmentation (OVSS) 専用フレームワークです。
  • テキスト埋め込みを、グローバルな CLS トークンと局所的なパッチレベルの視覚特徴の双方と共同で整列させることで、強力な意味的識別性と微細な空間局在性を両立させます。
  • 画像-テキスト相互作用に先立って視覚表現の早期リファインメントを行い、得られた画像-テキスト相関特徴の後期リファインメントを行うことで、混雑したシーンにおける密な予測を改善します。
  • スライディングウィンドウ集約に基づく高解像度の局所-グローバル推論戦略は、空間的ディテールを保持しつつグローバルな文脈を維持します。5つの OVSS ベンチマークでの実験は、最先端手法を一貫して上回る改善を示しました。

Abstract

開放語彙セマンティックセグメンテーション(OVSS)は、テキストで定義されたカテゴリのオープンセットからピクセルレベルのラベルを割り当て、推論時に未知のクラスへの信頼性のある一般化を要求します。 現代のビジョン-言語モデル(VLM)は強力なオープンボキャブラリ認識をサポートしますが、グローバルな対照学習目的で学習された表現は密な予測には依然として最適とは言えず、画像-テキストの類似度マップの限定的な適応や洗練に依存する多くの OVSS 手法を促しています。これは、複雑で散らかったシーンにおける空間的精度と頑健性を制限します。 我々は dinov3.seg を導入し、dinov3.txt を OVSS 専用のフレームワークへ拡張します。 本研究の貢献は四つの点に分かれます。第一に、このバックボーンに合わせたタスク特化型アーキテクチャを設計し、過去のオープンボキャブラリセグメンテーション研究に基づく確立した設計原則を体系的に適応します。第二に、グローバルな [CLS] トークンと ViT ベースのエンコーダから得られる局所パッチレベルの視覚特徴の両方に整合したテキスト埋め込みを共同利用し、意味的識別性と細かな空間的局在性を効果的に結び付けます。第三に、後付けの類似度の精緻化に主に依存する従来のアプローチとは異なり、画像とテキストの相互作用の前に視覚表現の早期改良を行い、その後に得られた画像-テキスト相関特徴の後期改良を行い、散らかったシーンでもより正確で頑健な密予測を実現します。最後に、スライディングウィンドウ集約に基づく高解像度の局所–グローバル推論戦略を提案します。これにより、空間的なディテールを保持しつつグローバルな文脈を維持します。私たちは提案手法を評価するために、五つの広く採用されている OVSS ベンチマークで広範な実験を実施します。結果はその有効性と頑健性を示し、現在の最先端手法を一貫して上回ることを示しています。