OSMベースのリモートセンシングVLMのドメイン適応

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

要点

  • OSMDAは、巨大な教師モデルや手動ラベリングへの依存を排除する、リモートセンシングVision-Language Models(VLMs)向けの自己完結型のドメイン適応フレームワークです。
  • 空撮画像をレンダリングされたOpenStreetMap(OSM)タイルと組み合わせ、モデルのOCRとチャート理解機能を活用して、OSMの豊富な補助メタデータで強化されたキャプションを生成します。
  • 得られたコーパスを用いて衛星画像のみでファインチューニングを行い、OSMDA-VLMを構築します。これはマニュアルラベリングを要せず、外部の強力なモデルも不要なドメイン適応VLMです。
  • 著者らはデータセットとモデルの重みを公開する予定であり、クラウドソース地理データとの整合性の実用性とスケーラビリティを示します。
リモートセンシングへ適用されたVision-Language Models(VLMs)は、ドメイン特有の画像とテキストの監督信号に大きく依存していますが、衛星および航空画像の高品質なアノテーションは依然として不足しており、作成コストも高いのが現状です。従来の擬似ラベリングパイプラインは、大規模な先端モデルから知識を蒸留することでこのギャップに対処しますが、この大規模な教師モデルへの依存はコストがかかり、スケーラビリティを制限し、達成可能な性能を教師の天井に抑えます。私たちはOSMDAを提案します。これはこの依存を排除する自己完結型のドメイン適応フレームワークです。私たちの核心的洞察は、能力のある基盤VLMが自分自身のアノテーションエンジンとして機能できるということです。空撮画像とレンダリングされたOpenStreetMap(OSM)タイルを組み合わせることで、モデルの光学文字認識(OCR)とチャート理解機能を活用し、OSMの膨大な補助メタデータで強化されたキャプションを生成します。次に、得られたコーパスを衛星画像のみでファインチューニングすることでOSMDA-VLMを得ます。これは手動ラベリングを要せず、外部のより強力なモデルも不要なドメイン適応VLMです。我々は、画像とテキスト間の10のベンチマークにわたる網羅的な評価を行い、9つの競合ベースラインと比較します。実データと等しく混合した場合、我々の手法は最先端の結果を達成しますが、教師依存型の代替手法と比較して訓練コストは大幅に低く抑えられます。これらの結果は、強力な基盤モデルを前提とすれば、クラウドソース地理データとの整合がリモートセンシングのドメイン適応へ向けた実用的かつスケーラブルな道であることを示唆しています。データセットとモデルの重みは公開される予定です。