概要: 推論セグメンテーションは、最近、地上レベルのシーンからリモートセンシング画像へと拡大している。しかし、UAVデータは、斜め方向の視点、超高解像度、そして極端なスケール変動を含む、独自の課題を提示する。これらの問題に対処するため、私たちはUAV推論セグメンテーションのタスクを正式に定義し、その意味的要件を3つの次元、すなわち空間(Spatial)、属性(Attribute)、そしてシーンレベルの推論(Scene-level reasoning)に整理する。この定式化に基づき、私たちはUAV推論セグメンテーションのための大規模ベンチマークであるDRSegを構築する。DRSegは、全3種類の推論タイプに対して、Chain-of-Thought(思考過程)によるQA監督を組み合わせた、10k件の高解像度の航空画像を含む。ベンチマークの補助として、本タスクの統一された基準となる、シンプルながら効果的なピクセルレベルのマルチモーダル言語モデルであるPixDLMを導入する。DRSegに関する実験は、強力なベースライン結果を示すとともに、UAV推論セグメンテーション特有の課題を明確にし、今後の研究のための確固たる土台を提供する。
PixDLM:UAV推論セグメンテーションのためのデュアルパス・マルチモーダル言語モデル
arXiv cs.CV / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、UAV(無人航空機)によるリモートセンシング画像へ「推論セグメンテーション」を拡張し、斜め視点や極端なスケール差といった課題を含むUAV推論セグメンテーションを提案しています。
- タスクの意味的要件を、Spatial(空間)・Attribute(属性)・Scene-level(シーンレベル)の3つの推論次元として形式化し、その枠組みに基づいて問題定義を行っています。
- 10k枚の高解像度の航空画像に対し、3種類すべての推論タイプを対象にChain-of-ThoughtのQAスーパービジョンを付けた大規模ベンチマークDRSegを構築しています。
- ベンチマーク向けのベースラインとして、PixDLM(ピクセルレベルのマルチモーダル言語モデル)を提示し、本タスクの統一的な簡易ベースラインとして機能させています。
- DRSegでの実験では強いベースライン性能が示され、同時にUAV推論セグメンテーション特有の難しさも浮き彫りになっており、今後の研究の土台になることを狙っています。