UHR-DETR：超高解像度リモートセンシング画像に対する効率的なエンドツーエンド小物体検出

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文では、超高解像度（UHR）リモートセンシング画像において小物体検出がメモリ制約や文脈損失のために難しい問題に対し、UHR-DETRという効率的なエンドツーエンドのトランスフォーマー型検出器を提案している。
有限な計算リソースを最も有益な高解像度領域に動的に割り当てる「Coverage-Maximizing Sparse Encoder」により、空間的な冗長性を抑えつつ物体カバレッジを最大化する。
「Global-Local Decoupled Decoder」では、マクロなシーン理解とミクロな物体の詳細を統合して、意味的曖昧さを解消し、シーンの断片化を防ぐ。
STARやSODA-Aなどのデータセットでの実験では、24GB RTX 3090を1枚といった厳しい計算環境下でも性能が優れており、mAPが2.8%向上し、STAR上ではスライディングウィンドウ基準に対して最大10倍高速に推論できる。
著者らは、コードとモデルをGitHubで公開する予定だとしている。

要旨: 超高解像度（UHR）画像は、現代のリモートセンシングに不可欠なものとなり、かつてない空間カバー範囲を提供しています。しかし、これほど広大なシーンにおいて小さな物体を検出するには重大なジレンマがあります。すなわち、小さな物体に対して元の解像度を保持すると、許容できないメモリのボトルネックが生じます。逆に、画像のダウンサンプリングやパッチの切り出しといった従来の妥協策は、小さな物体を消してしまうか、文脈を破壊します。このジレンマを打破するために、本研究ではUHR-DETRを提案します。UHR画像向けに設計された、効率的なエンドツーエンドのトランスフォーマーベース検出器です。まず、有限の計算資源を情報量の多い高解像度領域に動的に割り当てる「Coverage-Maximizing Sparse Encoder」を導入し、空間的な冗長性を最小限にしつつ、物体の最大カバーを保証します。次に、「Global-Local Decoupled Decoder」を設計します。このモジュールは、巨視的なシーンの理解と微視的な物体の詳細を統合することで、意味の曖昧さを解消し、シーンの断片化を防ぎます。UHR画像データセット（例：STARおよびSODA-A）に対する大規模な実験により、厳しいハードウェア制約下（例：単一の24GB RTX 3090）でのUHR-DETRの優位性が示されます。STARデータセットにおいて、標準的なスライディングウィンドウのベースラインと比較して、2.8\% mAPの改善を達成し、さらに推論速度を10倍に向上させます。コードとモデルは https://github.com/Li-JingFang/UHR-DETR で公開予定です。

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

Dev.to

Qwen3.6 35B-A3Bはllama.cppとVulkanで780M iGPU上でもかなり実用的

Reddit r/LocalLLaMA

UHR-DETR：超高解像度リモートセンシング画像に対する効率的なエンドツーエンド小物体検出

要点

関連記事

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

Qwen3.6 35B-A3Bはllama.cppとVulkanで780M iGPU上でもかなり実用的

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer