dinov3.seg: DINOv3バックボーンを採用したオープンボキャブラリ型セマンティックセグメンテーション

arXiv cs.AI / 2026/3/23

💬 オピニオンModels & Research

共有:

要点

本論文は dinov3.seg を紹介します。DINOv3 バックボーンを基盤とし、オープンセットのテキスト定義カテゴリに対処する Open-Vocabulary Semantic Segmentation (OVSS) 専用フレームワークです。
テキスト埋め込みを、グローバルな CLS トークンと局所的なパッチレベルの視覚特徴の双方と共同で整列させることで、強力な意味的識別性と微細な空間局在性を両立させます。
画像-テキスト相互作用に先立って視覚表現の早期リファインメントを行い、得られた画像-テキスト相関特徴の後期リファインメントを行うことで、混雑したシーンにおける密な予測を改善します。
スライディングウィンドウ集約に基づく高解像度の局所-グローバル推論戦略は、空間的ディテールを保持しつつグローバルな文脈を維持します。5つの OVSS ベンチマークでの実験は、最先端手法を一貫して上回る改善を示しました。

Abstract

開放語彙セマンティックセグメンテーション（OVSS）は、テキストで定義されたカテゴリのオープンセットからピクセルレベルのラベルを割り当て、推論時に未知のクラスへの信頼性のある一般化を要求します。現代のビジョン-言語モデル（VLM）は強力なオープンボキャブラリ認識をサポートしますが、グローバルな対照学習目的で学習された表現は密な予測には依然として最適とは言えず、画像-テキストの類似度マップの限定的な適応や洗練に依存する多くの OVSS 手法を促しています。これは、複雑で散らかったシーンにおける空間的精度と頑健性を制限します。我々は dinov3.seg を導入し、dinov3.txt を OVSS 専用のフレームワークへ拡張します。本研究の貢献は四つの点に分かれます。第一に、このバックボーンに合わせたタスク特化型アーキテクチャを設計し、過去のオープンボキャブラリセグメンテーション研究に基づく確立した設計原則を体系的に適応します。第二に、グローバルな [CLS] トークンと ViT ベースのエンコーダから得られる局所パッチレベルの視覚特徴の両方に整合したテキスト埋め込みを共同利用し、意味的識別性と細かな空間的局在性を効果的に結び付けます。第三に、後付けの類似度の精緻化に主に依存する従来のアプローチとは異なり、画像とテキストの相互作用の前に視覚表現の早期改良を行い、その後に得られた画像-テキスト相関特徴の後期改良を行い、散らかったシーンでもより正確で頑健な密予測を実現します。最後に、スライディングウィンドウ集約に基づく高解像度の局所–グローバル推論戦略を提案します。これにより、空間的なディテールを保持しつつグローバルな文脈を維持します。私たちは提案手法を評価するために、五つの広く採用されている OVSS ベンチマークで広範な実験を実施します。結果はその有効性と頑健性を示し、現在の最先端手法を一貫して上回ることを示しています。

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

Dev.to

[D] 他のPhD学生も、準備不足だと感じていて、ハードルが低すぎると思いますか？

Reddit r/MachineLearning

生成AIの価値と導入に関する調査

Reddit r/artificial

2026 LLMベンチマーク対決：Gemini vs Claude vs GPT vs 中国のオープンソース

Dev.to

OpenAIのCEOサム・アルトマン氏、「非常に強力」なモデルを社内で示唆—「経済を大きく加速」

THE DECODER

dinov3.seg: DINOv3バックボーンを採用したオープンボキャブラリ型セマンティックセグメンテーション

要点

Abstract

関連記事

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

[D] 他のPhD学生も、準備不足だと感じていて、ハードルが低すぎると思いますか？

生成AIの価値と導入に関する調査

2026 LLMベンチマーク対決：Gemini vs Claude vs GPT vs 中国のオープンソース

OpenAIのCEOサム・アルトマン氏、「非常に強力」なモデルを社内で示唆—「経済を大きく加速」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer