UHR-BAT:超高解像度リモートセンシングのための予算配慮型トークン圧縮ビジョン・言語モデル

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • UHR-BATは、視覚トークンの二次的な増加を抑えつつ、クエリにとって重要な詳細を保持することを目的とした、超高解像度リモートセンシング向けの予算配慮型トークン圧縮フレームワークである。
  • この手法は、厳格なコンテキスト予算の下で、最も関連性の高い視覚トークンを選択するために、テキストガイド付きのマルチスケール重要度推定を用いる。
  • また、領域ごとの「保存して統合(preserve-and-merge)」戦略を適用することで、小さな物体の情報を損なうことなく、トークン間の冗長性を削減する。
  • 著者らは複数のベンチマークで最先端の性能を報告しており、コードはGitHub経由で公開される予定であることを示している。

Abstract

超高解像度(UHR)のリモートセンシング画像は、キロメートル規模の文脈情報と、わずか数ピクセルにしか現れない可能性のあるクエリにとって重要な証拠とを結びつけます。このような非常に大きな空間スケールは、視覚トークンが二次的に爆発することにつながり、小さな対象物から情報を抽出することを妨げます。従来の研究では、直接のダウンサンプリング、密なタイル分割、あるいはグローバルな上位k抽出による剪定が用いられてきましたが、これらはクエリにとって重要な画像の詳細を損なうか、または計算量が予測不能になってしまいます。本論文では、厳密な文脈予算のもとで視覚トークンを効率的に選択するための、クエリガイド型かつ領域整合的なトークン圧縮フレームワークであるUHR-BATを提案します。具体的には、視覚トークンに対してテキストに導かれたマルチスケールの重要度推定を活用し、正確でありながら低コストな特徴抽出を実現するという課題に効果的に対処します。さらに、領域ごとの保持・統合戦略を導入することで、視覚トークンの冗長性を抑え、計算予算をさらに削減します。実験結果は、UHR-BATがさまざまなベンチマークにおいて最先端の性能を達成することを示しています。コードは https://github.com/Yunkaidang/UHR で公開予定です。