要旨: リモートセンシング画像への適応において、ビジョン-言語モデルを適用することは、テキスト表現の意味的網羅性が限られていることと視覚特徴の適応性が不十分であることという2つの要因のため、依然として困難です。これらの問題は、さまざまな視覚的外観と細かなオブジェクト区別を含む空撮シーンでは特に顕著です。私たちは、リモートセンシング適応のために設計された知識蒸留フレームワーク AVION を提案します。教師モジュールは、大規模言語モデルからの記述を収集して意味的に豊かなテキストプロトタイプを構築し、リモートセンシング画像特徴を用いて妥当性を検証します。学生モジュールは、視覚エンコーダと言語エンコーダの双方に、軽量で学習可能なプロンプトを統合し、埋め込みとそのクロスモーダルな関係を整えるように教師の指導の下で行います。訓練後、推論時には学生モジュールは独立して動作します。六つの光学リモートセンシングベンチマークでの実験は、AVION が少数ショット分類と基底クラス精度を向上させ、新規カテゴリへの一般化を劣化させないことを示しています。さらに、クロスモーダル検索の平均リコールを高め、追加の学習可能パラメータを最小限に抑えます。
AVION: オフライン教師からプロンプト調整済みネットワークへの空中ビジョン-言語指示
arXiv cs.CV / 2026/3/16
📰 ニュースModels & Research
要点
- AVION は、視覚-言語モデルをリモートセンシング画像へ適用するための知識蒸留フレームワークを提案し、限られたテキストによる意味的カバーと適応性のある視覚特徴の問題に対処します。
- 教師モジュールは、大規模言語モデルからの記述を収集して意味的に豊かなテキスト・プロトタイプを生成し、リモートセンシング画像特徴と照合して検証します。
- 学習者モジュールは、視覚エンコーダと言語エンコーダの両方に、軽量で学習可能なプロンプトを導入し、教師の指導のもと埋め込みとモダリティ間の関係を整合させます。推論は教師を使わず、学習済みの学生モデルを使用します。
- 6つの光学リモートセンシングベンチマークにおける実験は、少数ショット分類と基底クラス精度の向上を示し、未知カテゴリへの一般化を維持しつつ、クロスモーダル検索の平均リコールを高め、学習可能パラメータを最小限に抑えます。
- AVION は、追加の学習可能パラメータを限定したまま効率的に適応し、クロスモーダル検索を改善することを示しており、リモートセンシングVLM の実用的な展開に利点を示します。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning