DINOが飛躍：リモートセンシング画像のオープンボキャブラリ意味セグメンテーションに向けたDINOv3

arXiv cs.CV / 2026/5/6

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文は、リモートセンシング画像のオープンボキャブラリ意味セグメンテーション向けに、RS固有の高コストな教師あり微調整を避けることを目的としたCAFe-DINOを提案します。
CAFe-DINOは、RSデータで事前学習を行わずにGEO-benchセグメンテーションでSOTAを上回ったDINOv3の性能と、DINO.txtによるオープンボキャブラリセグメンテーション機能を活用します。
コスト集約と学習不要（training-free）の特徴アップサンプリングにより、DINOv3のテキスト-画像類似度を強化し、微調整はRSを意識したCOCO-Stuffのサブセットに限定します。
実験では主要なRSセグメンテーションデータセットで最先端性能を達成し、RSデータで微調整したOVSS手法よりも良い結果を示します。
著者は再現性のために、指定されたGitHubリポジトリでコードとデータを公開しています。

Abstract

リモートセンシング（RS）分野では、密にラベル付けされたデータセットが不足しており、取得にはコストがかかります。したがって、教師ありの微調整なしでリモートセンシング画像をうまくセグメントできるモデルは価値がありますが、既存の解決策は教師あり手法に後れを取っています。最近、DINOv3は、RSデータでの事前学習なしに、GEO-benchセグメンテーションのベンチマークにおいてSOTAのRS基盤モデルを上回りました。さらに、DINO.txtにより、DINOv3バックボーンを用いたオープン語彙セマンティックセグメンテーション（OVSS）が可能になっています。私たちはこれらの発展を活用して、RSドメインでの微調整を行わない、リモートセンシング画像向けのOVSSモデルを構築します。私たちのモデルであるCAFe-DINO（Cost Aggregation + Feature Upsampling with DINO）は、コスト集約と、テキスト・画像類似度スコアの学習不要なアップサンプリングによって、リモートセンシング画像に対するDINOv3の高いOVSS性能を活用します。DINOv3バックボーンの堅牢な潜在表現により、リモートセンシング画像での微調整は不要になります。代わりに、COCO-StuffのRS向けサブセットで私たちのモデルを微調整します。CAFe-DINOは主要なRSセグメンテーションデータセットにおいて最先端の性能を達成し、RSデータで微調整されたOVSS手法を上回ります。コードとデータは https://github.com/rfaulk/DINO_Soars で公開されています。