UHR-BAT：超高解像度リモートセンシングのための予算配慮型トークン圧縮ビジョン・言語モデル

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

UHR-BATは、視覚トークンの二次的な増加を抑えつつ、クエリにとって重要な詳細を保持することを目的とした、超高解像度リモートセンシング向けの予算配慮型トークン圧縮フレームワークである。
この手法は、厳格なコンテキスト予算の下で、最も関連性の高い視覚トークンを選択するために、テキストガイド付きのマルチスケール重要度推定を用いる。
また、領域ごとの「保存して統合（preserve-and-merge）」戦略を適用することで、小さな物体の情報を損なうことなく、トークン間の冗長性を削減する。
著者らは複数のベンチマークで最先端の性能を報告しており、コードはGitHub経由で公開される予定であることを示している。

Abstract

超高解像度（UHR）のリモートセンシング画像は、キロメートル規模の文脈情報と、わずか数ピクセルにしか現れない可能性のあるクエリにとって重要な証拠とを結びつけます。このような非常に大きな空間スケールは、視覚トークンが二次的に爆発することにつながり、小さな対象物から情報を抽出することを妨げます。従来の研究では、直接のダウンサンプリング、密なタイル分割、あるいはグローバルな上位k抽出による剪定が用いられてきましたが、これらはクエリにとって重要な画像の詳細を損なうか、または計算量が予測不能になってしまいます。本論文では、厳密な文脈予算のもとで視覚トークンを効率的に選択するための、クエリガイド型かつ領域整合的なトークン圧縮フレームワークであるUHR-BATを提案します。具体的には、視覚トークンに対してテキストに導かれたマルチスケールの重要度推定を活用し、正確でありながら低コストな特徴抽出を実現するという課題に効果的に対処します。さらに、領域ごとの保持・統合戦略を導入することで、視覚トークンの冗長性を抑え、計算予算をさらに削減します。実験結果は、UHR-BATがさまざまなベンチマークにおいて最先端の性能を達成することを示しています。コードは https://github.com/Yunkaidang/UHR で公開予定です。

Black Hat Asia

AI Business

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

UHR-BAT：超高解像度リモートセンシングのための予算配慮型トークン圧縮ビジョン・言語モデル

要点

Abstract

関連記事

Black Hat Asia

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer