UHR-BAT:超高解像度リモートセンシングのための予算配慮型トークン圧縮ビジョン・言語モデル
arXiv cs.CV / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- UHR-BATは、視覚トークンの二次的な増加を抑えつつ、クエリにとって重要な詳細を保持することを目的とした、超高解像度リモートセンシング向けの予算配慮型トークン圧縮フレームワークである。
- この手法は、厳格なコンテキスト予算の下で、最も関連性の高い視覚トークンを選択するために、テキストガイド付きのマルチスケール重要度推定を用いる。
- また、領域ごとの「保存して統合(preserve-and-merge)」戦略を適用することで、小さな物体の情報を損なうことなく、トークン間の冗長性を削減する。
- 著者らは複数のベンチマークで最先端の性能を報告しており、コードはGitHub経由で公開される予定であることを示している。
