AI Navigate

AVION: オフライン教師からプロンプト調整済みネットワークへの空中ビジョン-言語指示

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

要点

  • AVION は、視覚-言語モデルをリモートセンシング画像へ適用するための知識蒸留フレームワークを提案し、限られたテキストによる意味的カバーと適応性のある視覚特徴の問題に対処します。
  • 教師モジュールは、大規模言語モデルからの記述を収集して意味的に豊かなテキスト・プロトタイプを生成し、リモートセンシング画像特徴と照合して検証します。
  • 学習者モジュールは、視覚エンコーダと言語エンコーダの両方に、軽量で学習可能なプロンプトを導入し、教師の指導のもと埋め込みとモダリティ間の関係を整合させます。推論は教師を使わず、学習済みの学生モデルを使用します。
  • 6つの光学リモートセンシングベンチマークにおける実験は、少数ショット分類と基底クラス精度の向上を示し、未知カテゴリへの一般化を維持しつつ、クロスモーダル検索の平均リコールを高め、学習可能パラメータを最小限に抑えます。
  • AVION は、追加の学習可能パラメータを限定したまま効率的に適応し、クロスモーダル検索を改善することを示しており、リモートセンシングVLM の実用的な展開に利点を示します。

要旨: リモートセンシング画像への適応において、ビジョン-言語モデルを適用することは、テキスト表現の意味的網羅性が限られていることと視覚特徴の適応性が不十分であることという2つの要因のため、依然として困難です。これらの問題は、さまざまな視覚的外観と細かなオブジェクト区別を含む空撮シーンでは特に顕著です。私たちは、リモートセンシング適応のために設計された知識蒸留フレームワーク AVION を提案します。教師モジュールは、大規模言語モデルからの記述を収集して意味的に豊かなテキストプロトタイプを構築し、リモートセンシング画像特徴を用いて妥当性を検証します。学生モジュールは、視覚エンコーダと言語エンコーダの双方に、軽量で学習可能なプロンプトを統合し、埋め込みとそのクロスモーダルな関係を整えるように教師の指導の下で行います。訓練後、推論時には学生モジュールは独立して動作します。六つの光学リモートセンシングベンチマークでの実験は、AVION が少数ショット分類と基底クラス精度を向上させ、新規カテゴリへの一般化を劣化させないことを示しています。さらに、クロスモーダル検索の平均リコールを高め、追加の学習可能パラメータを最小限に抑えます。