言語プロンプトによるオールインワンのマルチモーダルリモートセンシング画像修復・フュージョンのための統一基盤モデル

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語プロンプトを用いて複数の低レベル視覚タスクを1つの枠組みで扱う、「統一基盤モデル」であるLLaRSを提案する。
  • センサの異種性に対処するため、Sinkhorn-Knoppの最適輸送を適用し、異種のバンドを処理前に意味的に対応づくスロットへ整列させる。
  • LLaRSは3つのMixture-of-Experts(混合専門家)コンポーネントを用いる。空間パターン用の畳み込みエキスパート、スペクトルの忠実性のためのチャネル・ミキシングエキスパート、そして低ランクアダプタ付きの注意(attention)エキスパートにより、劣化タイプをまたいで性能を向上させる。
  • 学習は、新たに作成された100万規模のマルチタスクデータセット(LLaRS1M)に依拠し、実際の対応観測と制御された合成劣化の両方を用いて11のタスクをカバーする。さらに、多様な自然言語プロンプトで条件付けを行う。
  • 実験では、LLaRSが7つのベースラインを一貫して上回ることが報告される。また、パラメータ効率の高い微調整により、未見データに対する強い転移/適応が示され、コードはプロジェクトのリポジトリで提供される。

要旨: リモートセンシング画像は、雲、かすみ、ノイズ、解像度の制限、そしてセンサーの異質性によって影響を受けます。既存の修復および融合手法では、劣化タイプごとに別々のモデルを学習します。本研究では、多モーダルかつマルチタスクのリモートセンシング低レベル視覚に対する最初の統一基盤モデルである、言語条件付き大規模リモートセンシング修復モデル(LLaRS)を提案します。LLaRSは、Sinkhorn-Knoppの最適輸送を用いて、異質なバンドを意味的に整合したスロットへと対応付け、特徴を3つの相補的な混合専門家(Mixture-of-Experts)層(空間パターンのための畳み込み専門家、スペクトルの忠実性のためのチャネル混合専門家、そしてグローバルな文脈のための低ランクアダプタを備えた注意専門家)を通して経路付けし、ステップ単位の動的な重み調整によって共同学習を安定化します。LLaRSを学習するために、11の修復および強調(enhancement)タスクにまたがる、ミリオンスケールのマルチタスクデータセットであるLLaRS1Mを構築します。これには、多様な自然言語プロンプトとともに、実ペア観測と制御された合成劣化を統合しています。実験の結果、LLaRSは一貫して7つの競合モデルを上回り、パラメータ効率の高いファインチューニング実験では、未見データに対する強力な転移能力と適応の効率性が示されます。リポジトリ: https://github.com/yc-cui/LLaRS