OSMベースのリモートセンシングVLMのドメイン適応

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

共有:

要点

OSMDAは、巨大な教師モデルや手動ラベリングへの依存を排除する、リモートセンシングVision-Language Models（VLMs）向けの自己完結型のドメイン適応フレームワークです。
空撮画像をレンダリングされたOpenStreetMap（OSM）タイルと組み合わせ、モデルのOCRとチャート理解機能を活用して、OSMの豊富な補助メタデータで強化されたキャプションを生成します。
得られたコーパスを用いて衛星画像のみでファインチューニングを行い、OSMDA-VLMを構築します。これはマニュアルラベリングを要せず、外部の強力なモデルも不要なドメイン適応VLMです。
著者らはデータセットとモデルの重みを公開する予定であり、クラウドソース地理データとの整合性の実用性とスケーラビリティを示します。

リモートセンシングへ適用されたVision-Language Models（VLMs）は、ドメイン特有の画像とテキストの監督信号に大きく依存していますが、衛星および航空画像の高品質なアノテーションは依然として不足しており、作成コストも高いのが現状です。従来の擬似ラベリングパイプラインは、大規模な先端モデルから知識を蒸留することでこのギャップに対処しますが、この大規模な教師モデルへの依存はコストがかかり、スケーラビリティを制限し、達成可能な性能を教師の天井に抑えます。私たちはOSMDAを提案します。これはこの依存を排除する自己完結型のドメイン適応フレームワークです。私たちの核心的洞察は、能力のある基盤VLMが自分自身のアノテーションエンジンとして機能できるということです。空撮画像とレンダリングされたOpenStreetMap（OSM）タイルを組み合わせることで、モデルの光学文字認識（OCR）とチャート理解機能を活用し、OSMの膨大な補助メタデータで強化されたキャプションを生成します。次に、得られたコーパスを衛星画像のみでファインチューニングすることでOSMDA-VLMを得ます。これは手動ラベリングを要せず、外部のより強力なモデルも不要なドメイン適応VLMです。我々は、画像とテキスト間の10のベンチマークにわたる網羅的な評価を行い、9つの競合ベースラインと比較します。実データと等しく混合した場合、我々の手法は最先端の結果を達成しますが、教師依存型の代替手法と比較して訓練コストは大幅に低く抑えられます。これらの結果は、強力な基盤モデルを前提とすれば、クラウドソース地理データとの整合がリモートセンシングのドメイン適応へ向けた実用的かつスケーラブルな道であることを示唆しています。データセットとモデルの重みは公開される予定です。

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

OSMベースのリモートセンシングVLMのドメイン適応

要点

関連記事

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer